Parola di Leader: Proposta di un Dizionario dei Termini Positivi e Negativi (2/3)

Qualsiasi procedura scientifica che mira a ottenere delle evidenze empiriche con la misura di un determinato fenomeno deve essere sottoposta prima di tutto a una valutazione della validità dello strumento utilizzato.
Il DTPN è un dizionario di forme flesse in cui ogni lessia è associata a una categoria di “sentiment” positivo o negativo. Si tratta dunque di una misura dicotomica della polarità. Le forme che non appaiono nel dizionario sono implicitamente assegnate a una categoria di neutralità.
Il dizionario può essere utilizzato come risorsa in un software di analisi automatica dei testi (come TaLTaC) al fine di riconoscere ed etichettare i termini in base allo loro polarità per poi conteggiarli e procedere a una misura di sintesi del profilo positivo o negativo del testo. La misura, pur con tutte le ambiguità del linguaggio, rende conto complessivamente di un “tono” che emerge dall’utilizzo delle parole. Il tono positivo/negativo dovrà poi essere valutato nel contesto d’uso analizzando in dettaglio la lista delle forme annotate. In questo senso il DTPN è un ausilio per l’analisi del contenuto emozionale di diversi testi a confronto tra loro e non una misura “assoluta” del contenuto positivo o negativo di un documento.

Il DTPN si presenta come una estensione del Dizionario degli aggettivi positivi e negativi (già incluso tra le risorse di TaLTaC) ad altre categorie grammaticali, pertanto la prima verifica di validità della misura è stata effettuata - come si è visto nel post precedente - con il confronto tra la soglia di negatività degli aggettivi e la soglia di negatività del DTPN nell’Italiano Standard e nel corpus Rep90 delle prime dieci annate del quotidiano “la Repubblica”.

Tab. 1 - Indice di negatività a confronto per tipo di corpus e dizionario utilizzato

Connotazione	Italiano Standard		la Repubblica 1990-1999
Connotazione	Diz. aggettivi	DTNP	Diz. aggettivi	DTNP
Occorrenze Negative (N)	30.330	124.747	2.063.955	9.108.307
Occorrenze Positive (P)	81.638	301.605	4.344.352	15.390.601
Indice di Negatività (N/P *100)	37,15	41,36	47,51	59,18

Il passo successivo consiste in una prova di validità del contenuto positivo o negativo del testo mettendo a confronto l’indice di negatività osservato con il DTPN in quattro collezioni di documenti che - a priori - sappiamo essere molto diverse tra loro rispetto alla polarità del sentiment: si tratta di articoli di vari quotidiani italiani nel triennio 2022-2024 con riferimento alle seguenti parole chiave [1]:

Benessere: 808 articoli con sentiment positivo di 263.937 occorrenze.
Criminalità: 696 articoli con sentiment negativo di 261.258 occorrenze.
Moda: 556 articoli con sentiment positivo di 193.029 occorrenze.
Ucraina: 649 articoli con sentiment negativo di 227.939 occorrenze.

Tab. 2 - Indice di negatività a confronto per quattro collezioni di testi

con argomento controllato

Connotazione	Benessere		Criminalità		Moda		Ucraina
Connotazione	Diz. agg.	DTPN	Diz. agg.	DTPN	Diz. agg.	DTPN	Diz. agg.	DTPN
Occ. Negative (N)	596	3.489	1.842	12.430	466	2.198	1.387	9.324
Occ. Positive (P)	5.901	25.606	3.984	15.739	3.338	14.693	3.305	14.290
Indice di Negatività (N/P *100)	10,10	13,63	46,23	78,98	13,96	14,96	41.97	62,25

La polarità osservata con il DTPN appare molto sensibile e ben differenziata, con un innalzamento della negatività negli articoli su Criminalità e Ucraina come era atteso. La soglia di negatività del 50% è ampiamente superata. Gli articoli sulla Moda e sul Benessere ottengono un punteggio in cui vi è una netta prevalenza della polarità positiva. Nella tabella 3 sono rappresentate le forme significativamente sovra-rappresentate per ciascuna partizione di documenti rispetto al complesso inteso come un corpus [2].

Tab. 3 - Forme significativamente sovra-rappresentate secondo la polarità e la partizione

Connotazione	Benessere (n)	Criminalità (n)	Moda (n)	Ucraina (n)
Positiva	benessere (1937), salute (560), progetto (483), cura (225), collaborazione (190), obiettivo (181), importante (173), grazie (168), prevenzione (158)	sicurezza (364), forze (197), legalità (149), prevenzione (92), giustizia (67), luce (51), provvedimento (51), civile (51)	lusso (214), nuovo (163), sostenibilità (146), crescita (140), importante (119), valore (112), innovazione (74), eccellenza (73), formazione (69), partner (65), bellezza (64)	pace (317), aiuti (176), leader (167), sostegno (154), possibile (103), forze (97), difesa (95), solidarietà (88), alleati (87), ricostruzione (77), vittoria (75), accordo (73)

Connotazione

Benessere

(n)

Criminalità

(n)

Moda

(n)

Ucraina

(n)

Negativa

pandemia (74),

stress (69), malattie (49),

disagio (44), disabilità (34), ansia (33), fragili (32), patologie (31)

criminalità (750), reati (228), mafia (157), droga (131), furti (126), spaccio (123), violenza (119), rischio (98), criminali (98), gang (96), ‘ndrangheta (88), confiscati (83), carcere (82)

pandemia (65), crisi (57), difficile, danno, perdere, inflazione (25), virus (10), rigore (7), rincari (6)

guerra (1081), conflitto (243), invasione (155), aggressione (83), attacco (83), crisi (80),

difficile (70), bombe (63), morti (62), vittime (55), feriti (52)

Positiva

benessere (1937), salute (560), progetto (483), cura (225), collaborazione (190), obiettivo (181), importante (173), grazie (168), prevenzione (158)

sicurezza (364), forze (197), legalità (149), prevenzione (92), giustizia (67), luce (51), provvedimento (51), civile (51)

lusso (214), nuovo (163), sostenibilità (146), crescita (140), importante (119), valore (112), innovazione (74), eccellenza (73), formazione (69), partner (65), bellezza (64)

pace (317), aiuti (176), leader (167), sostegno (154), possibile (103), forze (97), difesa (95), solidarietà (88), alleati (87), ricostruzione (77), vittoria (75), accordo (73)

Una revisione attenta della lista dei termini annotati per valutare eventuali cambiamenti di senso della connotazione o per effetto della disambiguazione di alcuni termini non ha avuto conseguenze decisive sull’Indice di Negatività. I punteggi possono variare al massimo del 2-3% e, di solito, determinano un aumento della negatività. Per esempio “criminalità organizzata” porta a sottrarre 290 occorrenze del termine organizzata dal totale delle occorrenze con connotazione positiva.

Un problema rilevante nella valutazione della polarità è rappresentato dalla negazione della frase che si esprime, nella maggior parte dei casi, con l’avverbio non e con l’avverbio/preposizione senza. Gli altri operatori della negazione più frequenti sono gli aggettivi e pronomi indefiniti nessuno/niente/nulla/mai e le congiunzioni né/nemmeno/neppure/neanche [3]. Una valutazione quantitativa della negazione non può tenere conto della complessità di un fenomeno che comporta l’uso di diversi mezzi linguistici e produce esiti semantici complessi, come la negazione della negazione [a] e la negazione pleonastica o espletiva [b]:

[a] Non c’è nessun problema.
[b] Resto finché non arriva qualcuno.

Però facendo ricorso alle espressioni regolari UNIX [4] possiamo estrarre dal corpus le “stringhe di testo” che rispondono a determinati schemi e osservare empiricamente l’impatto che la presenza degli elementi della negazione esercitano sui termini etichettati come positivi o negativi, siano essi verbi, sostantivi, aggettivi o avverbi.

L’esperienza ci suggerisce di utilizzare una portata dell’effetto della negazione fino a tre termini di distanza tra il termine negativo/positivo e l’operatore che lo precede [5]. Per esempio l’espressione “non LAG3 CATSEM(Negativo)” - oppure (Positivo) - permette di ottenere risultati come i seguenti:

[c] Non facile.
[d] Non ero brava.
[e] Non bisogna lasciarsi ingannare.
[f] Non arrivano a commettere reati.

L’impatto della negazione sul calcolo dell’Indice di Negatività, se non si ricorre a complessi algoritmi di elaborazione del linguaggio naturale come machine learning o reti neurali, può essere valutato in due modi:

Modo 1: neutralizzazione dei termini positivi/negativi preceduti da una negazione entro le tre parole precedenti nella stessa frase (questa è la strada seguita da WordStat di Provalis).
Modo 2: inversione della polarità dei termini negativi/positivi preceduti da una negazione entro le tre parole precedenti nella stessa frase.

Il Modo 1 consiste semplicemente nel non conteggiare i termini “contestati” nella procedura di calcolo dell’indice. Il Modo 2 consiste nel prendere in esame la lista completa dei frammenti di testo estratti per valutare, caso per caso, l’assegnazione dei termini “contestati” al sentiment positivo, negativo o neutrale; questa procedura richiede più tempo e deve essere verificata nel contesto della frase, quando invece il calcolo dell’Indice di Negatività è di per sé un indicatore basato sul lessico. Per questi motivi è più veloce e più prudente la procedura di neutralizzazione del Modo 1.

Tab. 4 - Impatto della negazione per collezione di documenti,

forme della negazione e polarità

Forma della negazione LAG3 CATSEM	Benessere		Criminalità		Moda		Ucraina
Forma della negazione LAG3 CATSEM	Neg	Pos	Neg	Pos	Neg	Pos	Neg	Pos
non	133	247	318	479	104	198	318	499
senza	47	33	52	46	21	30	41	58
né/nemmeno/ neppure/neanche	6	6	13	14	4	6	12	11
nessuno/niente/ nulla/mai	14	12	42	48	16	23	43	41
Totale	200	298	425	587	145	257	414	609
Occ. nel corpus	3.489	25.606	12.430	15.739	2.198	14.693	9.324	14.290
Impatto della Negazione in %	5,73	1,16	3,42	3,73	6,60	1,75	4,44	4,26
Indice di Negatività	Prima: 13,63 Dopo: 13,00		Prima: 78,98 Dopo: 79,23		Prima: 14,96 Dopo: 14,22		Prima: 65,25 Dopo: 65,13

In sintesi, il confronto tra l’Indice di Negatività e il suo ricalcolo per l’effetto di “neutralizzazione” della negazione evidenzia un’incidenza trascurabile, come già osservato da Sergio Bolasco in un altro contesto [6].

Nel prossimo post si procederà a una verifica della validità concorrente mettendo a confronto la lista del DPTN con altri due strumenti di misura della polarità negativo-positivo disponibili per la lingua italiana nel software statistico R: Syuzhet e TALL.

[continua in 3/3]

Note

[1] Gli articoli sono stati estratti dalla banca dati LexisNexis per i seguenti quotidiani: Corriere della sera, La Nazione, Il Resto del Carlino, Il Giorno.

[2] Le forme sono "specifiche" perché sono sovra-utilizzate in una partizione rispetto al totale del corpus (test di significatività della ipergeometrica per p<0,05).

[3] Manzotti E. e Ripamonti (1991). La negazione. In Renzi L., Salvi G., Cardinaletti A. Grande grammatica di consultazione, vol II. Bologna, il Mulino, pp. 245-317.

[4] Sito di riferimento aggiornato al 6 novembre 2024: https://www.regular-expressions.info/tutorial.html

[5] Su questo argomento vedi: Hogenboom A., van Iterson P., Heerschop B., Frasincar F., Kaymak U. (2011). Determining negation scope and strength in sentiment analysis. In IEEE International Conference on Systems, Man, and Cybernetics, pp. 2589-2594 ; Baj-Rogowska A. (2017). Sentiment analysis of Facebook posts: The Uber case. In Eighth International Conference on Intelligent Computing and Information Systems (ICICIS); WordStat - Sentiment dictionaries - Provalis Research

[6] Bolasco S. (2013). L’analisi automatica dei testi. Fare ricerca con il text mining. Carocci, Roma, p. 183.

mercoledì 19 febbraio 2025

Proposta di un Dizionario dei Termini Positivi e Negativi (2/3)

Note