mercoledì 19 febbraio 2025

Proposta di un Dizionario dei Termini Positivi e Negativi (2/3)


Qualsiasi procedura scientifica che mira a ottenere delle evidenze empiriche con la misura di un determinato fenomeno deve essere sottoposta prima di tutto a una valutazione della validità dello strumento utilizzato. 
Il DTPN è un dizionario di forme flesse in cui ogni lessia è associata a una categoria di “sentiment” positivo o negativo. Si tratta dunque di una misura dicotomica della polarità. Le forme che non appaiono nel dizionario sono implicitamente assegnate a una categoria di neutralità. 
Il dizionario può essere utilizzato come risorsa in un software di analisi automatica dei testi (come TaLTaC) al fine di riconoscere ed etichettare i termini in base allo loro polarità per poi conteggiarli e procedere a una misura di sintesi del profilo positivo o negativo del testo. La misura, pur con tutte le ambiguità del linguaggio, rende conto complessivamente di un “tono” che emerge dall’utilizzo delle parole. Il tono positivo/negativo dovrà poi essere valutato nel contesto d’uso analizzando in dettaglio la lista delle forme annotate. In questo senso il DTPN è un ausilio per l’analisi del contenuto emozionale di diversi testi a confronto tra loro e non una misura “assoluta” del contenuto positivo o negativo di un documento.

Il DTPN si presenta come una estensione del Dizionario degli aggettivi positivi e negativi (già incluso tra le risorse di TaLTaC) ad altre categorie grammaticali, pertanto la prima verifica di validità della misura è stata effettuata - come si è visto nel post precedente - con il confronto tra la soglia di negatività degli aggettivi e la soglia di negatività del DTPN nell’Italiano Standard e nel corpus Rep90 delle prime dieci annate del quotidiano “la Repubblica”.

Tab. 1 - Indice di negatività a confronto per  tipo di corpus e dizionario utilizzato


Connotazione

Italiano Standard

la Repubblica 1990-1999

Diz. aggettivi

DTNP

Diz. aggettivi

DTNP

Occorrenze Negative (N)

30.330

124.747

2.063.955

9.108.307

Occorrenze Positive (P)

81.638

301.605

4.344.352

15.390.601

Indice di Negatività
(N/P *100)

37,15

41,36

47,51

59,18


Il passo successivo consiste in una prova di validità del contenuto positivo o negativo del testo mettendo a confronto l’indice di negatività osservato con il DTPN in quattro collezioni di documenti che - a priori - sappiamo essere molto diverse tra loro rispetto alla polarità del sentiment: si tratta di articoli di vari quotidiani italiani nel triennio 2022-2024 con riferimento alle seguenti parole chiave [1]:

  • Benessere: 808 articoli con sentiment positivo di 263.937 occorrenze.
  • Criminalità: 696 articoli con sentiment negativo di 261.258 occorrenze.
  • Moda: 556 articoli con sentiment positivo di 193.029 occorrenze.
  • Ucraina: 649 articoli con sentiment negativo di 227.939 occorrenze.

Tab. 2 - Indice di negatività a confronto per quattro collezioni di testi 
con argomento controllato


Connotazione

Benessere

Criminalità

Moda

Ucraina

Diz. agg.

DTPN

Diz. agg.

DTPN

Diz. agg.

DTPN

Diz. agg.

DTPN

Occ. Negative (N)

596

3.489

1.842

12.430

466

2.198

1.387

9.324

Occ. Positive (P)

5.901

25.606

3.984

15.739

3.338

14.693

3.305

14.290

Indice di Negatività
(N/P *100)

10,10

13,63

46,23

78,98

13,96

14,96

41.97

62,25

La polarità osservata con il DTPN appare molto sensibile e ben differenziata, con un innalzamento della negatività negli articoli su Criminalità e Ucraina come era atteso. La soglia di negatività del 50% è ampiamente superata. Gli articoli sulla Moda e sul Benessere ottengono un punteggio in cui vi è una netta prevalenza della polarità positiva. Nella tabella 3 sono rappresentate le forme significativamente sovra-rappresentate per ciascuna partizione di documenti rispetto al complesso inteso come un corpus [2].

Tab. 3 - Forme significativamente sovra-rappresentate secondo la polarità e la partizione


Connotazione

Benessere

(n)

Criminalità

(n)

Moda

(n)

Ucraina

(n)




Negativa

pandemia (74), 

stress (69), malattie (49), 

disagio (44), disabilità (34), ansia (33), fragili (32), patologie (31)


criminalità (750), reati (228), mafia (157), droga (131), furti (126), spaccio (123), violenza (119), rischio (98), criminali (98), gang (96), ‘ndrangheta (88), confiscati (83), carcere (82)

pandemia (65), crisi (57), difficile, danno, perdere, inflazione (25), virus (10), rigore (7), rincari (6)

guerra (1081), conflitto (243), invasione (155), aggressione (83), attacco (83), crisi (80),

difficile (70), bombe (63), morti (62), vittime (55), feriti (52)






Positiva

benessere (1937), salute (560), progetto (483), cura (225), collaborazione (190), obiettivo (181), importante (173), grazie (168), prevenzione (158)

sicurezza (364), forze (197), legalità (149), prevenzione (92), giustizia (67), luce (51), provvedimento (51), civile (51)

lusso (214), nuovo (163), sostenibilità (146), crescita (140), importante (119), valore (112), innovazione (74), eccellenza (73), formazione (69), partner (65), bellezza (64)

pace (317), aiuti (176), leader (167), sostegno (154), possibile (103), forze (97), difesa (95), solidarietà (88), alleati (87), ricostruzione (77), vittoria (75), accordo (73)

Una revisione attenta della lista dei termini annotati per valutare eventuali cambiamenti di senso della connotazione o per effetto della disambiguazione di alcuni termini non ha avuto conseguenze decisive sull’Indice di Negatività. I punteggi possono variare al massimo del 2-3% e, di solito, determinano un aumento della negatività. Per esempio “criminalità organizzata” porta a sottrarre 290 occorrenze del termine organizzata dal totale delle occorrenze con connotazione positiva.

Un problema rilevante nella valutazione della polarità è rappresentato dalla negazione della frase che si esprime, nella maggior parte dei casi, con l’avverbio non e con l’avverbio/preposizione senza. Gli altri operatori della negazione più frequenti sono gli aggettivi e pronomi indefiniti nessuno/niente/nulla/mai e le congiunzioni né/nemmeno/neppure/neanche [3]. Una valutazione quantitativa della negazione non può tenere conto della complessità di un fenomeno che comporta l’uso di diversi mezzi linguistici e produce esiti semantici complessi, come la negazione della negazione [a] e la negazione pleonastica o espletiva [b]:

[a] Non c’è nessun problema.
[b] Resto finché non arriva qualcuno.

Però facendo ricorso alle espressioni regolari UNIX [4] possiamo estrarre dal corpus le “stringhe di testo” che rispondono a determinati schemi e osservare empiricamente l’impatto che la presenza degli elementi della negazione esercitano sui termini etichettati come positivi o negativi, siano essi verbi, sostantivi, aggettivi o avverbi.

L’esperienza ci suggerisce di utilizzare una portata dell’effetto della negazione fino a tre termini di distanza tra il termine negativo/positivo e l’operatore che lo precede [5]. Per esempio l’espressione “non LAG3 CATSEM(Negativo)” - oppure (Positivo) - permette di ottenere risultati come i seguenti:

[c] Non facile.
[d] Non ero brava.
[e] Non bisogna lasciarsi ingannare.
[f] Non arrivano a commettere reati.

L’impatto della negazione sul calcolo dell’Indice di Negatività, se non si ricorre a complessi algoritmi di elaborazione del linguaggio naturale come machine learning o reti neurali, può essere valutato in due modi:

  • Modo 1: neutralizzazione dei termini positivi/negativi preceduti da una negazione entro le tre parole precedenti nella stessa frase (questa è la strada seguita da WordStat di Provalis).
  • Modo 2: inversione della polarità dei termini negativi/positivi preceduti da una negazione entro le tre parole precedenti nella stessa frase.

Il Modo 1 consiste semplicemente nel non conteggiare i termini “contestati” nella procedura di calcolo dell’indice. Il Modo 2 consiste nel prendere in esame la lista completa dei frammenti di testo estratti per valutare, caso per caso, l’assegnazione dei termini “contestati” al sentiment positivo, negativo o neutrale; questa procedura richiede più tempo e deve essere verificata nel contesto della frase, quando invece il calcolo dell’Indice di Negatività è di per sé un indicatore basato sul lessico. Per questi motivi è più veloce e più prudente la procedura di neutralizzazione del Modo 1.
 

Tab. 4 - Impatto della negazione per collezione di documenti, 
forme della negazione e polarità

Forma della negazione

LAG3 CATSEM

Benessere

Criminalità

Moda

Ucraina

Neg

Pos

Neg

Pos

Neg

Pos

Neg

Pos

non

133

247

318

479

104

198

318

499

senza

47

33

52

46

21

30

41

58

né/nemmeno/

neppure/neanche 

6

6

13

14

4

6

12

11

nessuno/niente/

nulla/mai

14

12

42

48

16

23

43

41

Totale

200

298

425

587

145

257

414

609

Occ. nel corpus

3.489

25.606

12.430

15.739

2.198

14.693

9.324

14.290

Impatto della Negazione in %

5,73

1,16

3,42

3,73

6,60

1,75

4,44

4,26

Indice di Negatività 

Prima: 13,63

Dopo: 13,00

Prima: 78,98

Dopo: 79,23

Prima: 14,96

Dopo: 14,22

Prima: 65,25

Dopo: 65,13


In sintesi, il confronto tra l’Indice di Negatività e il suo ricalcolo per l’effetto di “neutralizzazione” della negazione evidenzia un’incidenza trascurabile, come già osservato da Sergio Bolasco in un altro contesto [6].

Nel prossimo post si procederà a una verifica della validità concorrente mettendo a confronto la lista del DPTN con altri due strumenti di misura della polarità negativo-positivo disponibili per la lingua italiana nel software statistico R:  Syuzhet e TALL.

[continua in 3/3]

Note

[1] Gli articoli sono stati estratti dalla banca dati LexisNexis per i seguenti quotidiani: Corriere della sera, La Nazione, Il Resto del Carlino, Il Giorno.

[2] Le forme sono "specifiche" perché sono sovra-utilizzate in una partizione rispetto al totale del corpus (test di significatività della ipergeometrica per p<0,05).

[3] Manzotti E. e Ripamonti (1991). La negazione. In Renzi L., Salvi G., Cardinaletti A. Grande grammatica di consultazione, vol II. Bologna, il Mulino, pp. 245-317.

[4] Sito di riferimento aggiornato al 6 novembre 2024: https://www.regular-expressions.info/tutorial.html

[5] Su questo argomento vedi: Hogenboom A., van Iterson P., Heerschop B., Frasincar F., Kaymak U. (2011). Determining negation scope and strength in sentiment analysis. In IEEE International Conference on Systems, Man, and Cybernetics, pp. 2589-2594 ; Baj-Rogowska A. (2017). Sentiment analysis of Facebook posts: The Uber case. In Eighth International Conference on Intelligent Computing and Information Systems (ICICIS); WordStat - Sentiment dictionaries - Provalis Research

[6] Bolasco S. (2013). L’analisi automatica dei testi. Fare ricerca con il text mining. Carocci, Roma, p. 183.