In questo post e nei successivi riprendo un tema che mi ha sempre affascinato e che è stato oggetto di una comunicazione che ho presentato con Gevisa La Rocca al convegno JADT del 2010: “Validity and reliability of the automatic classification of texts according to the negative-positive criterion” (2010). Si trattava di un nuovo campo di studi, la sentiment analysis, termine apparso per la prima volta in Nasukawa e Yi (2003), una tecnica di opinion mining che puntava alla identificazione e quantificazione del contenuto emozionale del testo. Il tema non era nuovissimo: già nel 1964 Ole R. Holsti si era posto questo problema in un'analisi delle interazioni diplomatiche sovietico-americane durante la crisi cubana del 1962 (Holsti et al., 1964). La classificazione delle parole in positive e negative appare anche nel General Inquirer di Philip J. Stone, che rappresenta forse il primo tentativo di analisi automatica del contenuto su base computazionale (Stone et al., 1966).
A partire dal 2001-2004, l’analisi del “sentiment” si è affermata nel corso degli anni anche grazie allo sviluppo di modelli matematici sofisticati come le reti neurali e - da ultimo - con le relative applicazioni delle nuove tecnologie di intelligenza artificiale generativa per la elaborazione del linguaggio naturale.
Text mining e analisi del contenuto emozionale del testo
La classificazione dei documenti in base alla individuazione dei loro elementi distintivi ha avuto un impulso decisivo con la crescente disponibilità di testi digitalizzati e con il conseguente sviluppo delle tecniche di estrazione automatica del significato da informazioni non strutturate come siti web, libri, giornali, email e, in generale, di prodotti della comunicazione tramite social media. Tra le tecniche di text mining di maggiore interesse, la sentiment analysis ha immediatamente assunto un ruolo decisivo.
L’analisi dei tratti emozionali e valutativi nella comunicazione digitalizzata trova delle applicazioni importanti nelle ricerche sull’opinione pubblica in tutti i settori dell’economia e della politica. Utenti e consumatori utilizzano le piattaforme online per lasciare le loro valutazioni su prodotti e servizi. I social media generano ogni giorno una quantità immensa di commenti e discussioni in cui si esprimono il giudizio, il gradimento o il rifiuto del pubblico nei confronti di brand, personaggi politici, il mondo dello spettacolo e dello sport, persone più o meno famose e fatti di ogni genere. Per le aziende e le organizzazioni coinvolte è cruciale poter leggere sinteticamente il senso positivo o negativo di queste valutazioni al fine di prendere delle decisioni informate.
Le tecniche di classificazione automatica dei documenti possono essere suddivise in tre grandi approcci: (i) il machine learning approach che si basa sulla elaborazione del linguaggio naturale (NLP, natural language processing) e che si avvale anche degli sviluppi più recenti dell’intelligenza artificiale; (ii) l’approccio basato sulla redazione di lessici e dizionari tematici; (iii) l’approccio misto che combina entrambi i precedenti (D’Andrea et al., 2015; Xu et al., 2022; Tan et al., 2023).
Nelle argomentazioni che seguono farò riferimento esclusivamente a tecniche che si basano sulla compilazione di lessici e quindi di elenchi di forme flesse classificate secondo il criterio della polarità positivo-negativo.
La “Pollyanna Hypothesis"
Nella valutazione delle opinioni il “sentiment” rappresenta in prima istanza l’atteggiamento e la disposizione positiva o negativa di un soggetto verso una qualche forma di entità (cosa, persona o concetto) in un determinato momento. Tutto questo trae la sua origine dagli studi di psicologia sociale di Osgood, Suci e Tannenbaum (1957) sulle dimensioni del significato e sulla loro misura; nell’ambito di queste ricerche pionieristiche venne messo a punto lo strumento del differenziale semantico che tanta parte ha avuto nelle ricerche sulla misura degli atteggiamenti sociali e nello sviluppo dei metodi di quantificazione dei caratteri qualitativi.
Nel quadro di questi studi, Boucher e Osgwood (1969) formularono quella che è nota come “Pollyanna Hypotesis”, secondo la quale vi è una tendenza universale nel linguaggio umano a utilizzare parole positive con maggiore frequenza delle parole negative. Il fenomeno è stato studiato ripetutamente in tutti gli ambiti linguistici più noti e anche in culture distanti da quella occidentale (Dodds et al., 2015; Wen & Lei, 2022; Zhan & Jin, 2024) ed è stato associato anche a determinati tratti di personalità e alla propensione degli esseri umani a privilegiare le parole che favoriscono le interazioni sociali (Kelly, 2003; Garcia et al. 2012).
Rispetto alla frequenza delle parole va detto che vi sono due dimensioni da considerare: l’occorrenza delle parole (token frequency) e il conteggio delle parole distinte (type frequency). Studi recenti mettono in evidenza come in molti contesti linguistici le parole negative si presentano con una maggiore diversità lessicale mentre le parole positive hanno una maggiore intensità. Zhan e Jin (2004) fanno notare come a fronte di un generale accordo tra gli studiosi nel considerare non falsificata la Pollyanna Hypothesis a livello di token frequency, non vi sia un consenso unanime per quanto riguarda la diversità a livello di type frequency (Dodds et al., 2015; Kloumann et al., 2012; Rozin et al., 2010).
Il dizionario positivo-negativo e l’indice di negatività
Tra le risorse presenti in TaLTaC (Bolasco et al., 1999-2024), il software che ho utilizzato per le mie analisi, è presente un dizionario tematico messo a punto da Sergio Bolasco e Francesca della Ratta-Rinaldi (2004) che permette di eseguire il tagging semantico dei testi sulla base di una lista di aggettivi classificati come positivi o negativi. Il dizionario è costituito da 2.750 forme positive e 3.250 negative. Come mette bene in evidenza Sergio Bolasco (2013: 246):
Il limitare un dizionario ai soli aggettivi è ovviamente un limite, che tuttavia assicura maggior precisione nelle annotazioni. Infatti la qualificazione è certamente meno ambigua di quanto non siano sostantivi e verbi, utilizzati spesso in contesti contrastanti e sovente opposti.
Il dizionario permette di etichettare la terminologia presente in un testo al fine di valutarne quantitativamente la negatività calcolando un indice basato sulla token frequency: il rapporto tra il totale delle occorrenze negative su quelle positive (OccNeg / OccPos *100). Una serie di esperimenti effettuati su testi appartenenti a diverse tipologie ha dimostrato la validità della Pollyanna Hypothesis attestando una soglia empirica del 40% come riferimento per una connotazione negativa. Nella consapevolezza che qualsiasi metodo di classificazione non sarà mai in grado di tenere conto delle complesse ambiguità semantiche legate al contesto della comunicazione e alle strutture sintattiche della lingua, un metodo fondato sul lessico permette a posteriori di esaminare in dettaglio l’intera lista di aggettivi annotati e di correggerne eventualmente il “valore” (positivo, negativo o neutro).
Il mio obiettivo, pertanto, è stato quello varcare il limite cui fa riferimento Bolasco e di valutare gli effetti di una estensione del dizionario tematico ad altre categorie grammaticali (sostantivi, avverbi e verbi) mettendo a punto una lista selezionata con l’ausilio di diverse fonti informative (*). Lo scopo è di costruire una risorsa statistica che possa superare il vincolo grammaticale della “qualificazione” e che sia in grado di permettere - attraverso le forme selezionate - una lettura automatica più sensibile ed estesa della negatività o positività di un testo, e quindi una interpretazione più orientata alla ricostruzione del significato al di là delle inevitabili ambiguità e complessità del linguaggio.
Il dizionario, denominato d’ora in poi come Dizionario dei Termini Positivi e Negativi (DTPN), in questa prima versione è composto da 33.916 forme flesse.
Tab. 1 - Composizione del DTPN per categorie grammaticali
Un confronto tra l’Indice di negatività del Dizionario di aggettivi positivo-negativo implementato in TaLTaC e quello del DTPN mette in evidenza la sostanziale conferma della Pollyanna Hypothesis per il complesso delle categorie grammaticali.
Tab. 2 - Indice di negatività a confronto per tipo di corpus e dizionario utilizzato
La soglia di negatività del 40% suggerita da Bolasco e Della Ratta per gli aggettivi se calcolata per il DTPN potrebbe essere posizionata a una soglia un po' più alta. Un livello del 45% sembrerebbe ragionevole, come indicato dal valore dell’indice applicato al lessico di forme flesse dell’Italiano Standard, che deriva da un corpus di italiano parlato/scritto tratto da diverse fonti, formali e informali, adatto per essere assunto come benchmark con valore “medio” di negatività.
Lo stesso indice applicato al lessico del Rep90, tratto da un corpus di dieci annate del giornale “la Repubblica” (1990-1999), si presenta con una connotazione marcatamente negativa del tutto coerente con una tipologia di news e commenti che si riferiscono anche a eventi drammatici della cronaca e della storia mondiale.
Nel post successivo saranno effettuati altri confronti tra corpora di diversa composizione con approfondimenti sull’impatto della negazione.
[continua il 19 febbraio in 2/3]
_________________
(*) Il DTPN include il Dizionario di aggettivi positivo-negativo di TaLTaC con estensione alle forme appartenenti ad altre categorie grammaticali selezionate dalle seguenti fonti:
- General Inquirer (Stone et al., 1966)
- NRC Word-Emotion Association Lexicon (Mohammad & Turney, 2013).
- OpeNER Sentiment Lexicon Italian - LMF (Maks et al., 2014; Russo et al., 2016)
_____________________
Bolasco S. (1999-2024). TalTac: Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto. Vedi: https://www.taltac.com per informazioni sulle versioni in download (2.11.3 per Windows e 4.0 multipiattaforma e multicore).
Bolasco S. (2013). L’analisi automatica dei testi. Fare ricerca con il text mining. Pref. di Tullio De Mauro. Carocci, Roma.
Bolasco S., della Ratta-Rinaldi F. (2004). Experiments on semantic categorisation of texts: analysis of positive and negative dimension. In G. Purnelle, C. Fairon, A. Duster (eds). Le poids des mots, JADT04 International Conference on Statistical Analysis of Textual Data, pp. 202-210.
Boucher J. & Osgood C.E. (1969). The Pollyanna hypothesis. Journal of Verbal Learning & Verbal Behavior, vol. 8 (1): 1-8.
D’Andrea A., Ferri F., Grifoni P, Guzzo T. (2015). Approaches, Tools and Applications for Sentiment Analysis Implementation. International Journal of Computer Applications, 125 (3): 26-33.
Dodds P.S., Clark E.M., Desu S., Frank M.R., Reagan A.J., Williams J.R. & Danforth C.M. (2015). Human language reveals a universal positivity bias. In Proceedings of the National Academy of Sciences, 112 (8): 2389–2394.
Garcia D., Garas A., Schweitzer F. (2012). Positive words carry less information than negative words. EPJ Data Science, 1(1): 1–12.
Giuliano L., La Rocca G. (2010). Validity and reliability of the automatic classification of texts according to the negative-positive criterion. In S. Bolasco, I. Chiari, L. Giuliano (eds). Statistical Analysis of Textual Data. JADT10 International Conference on Statistical Analysis of Textual Data, Vol. 1, pp. 61-71.
Holsti O.R., Brody R.A., North R.C. (1964). Measuring Affect and Action in Inter National Reaction Models: Empirical Materials From the 1962 Cuban Crisis. Journal of Peace Research, Vol. 1 (3-4).
Kloumann I.M., Danforth C.M., Harris K.D., Bliss C.A., Dodds S. (2012). Positivity of the English language. PLoS One, 7(1).
Maks I., Izquierdo R., Frontini F., Cuadros M., Agerri R., Vossen P. (2014). Generating Polarity Lexicons with WordNet propagation in 5 languages. 9th LREC, Language Resources and Evaluation Conference. May 2014. Reykjavik, Iceland, 1155-1161.
Mohammad S. & Turney P. (2013). Crowdsourcing a Word-Emotion Association Lexicon. Computational Intelligence, 29 (3), 436-465, 2013.
Nasukawa T., Yi J. (2003). Sentiment analysis: capturing favorability using natural language processing. In Proceedings of the 2nd international conference on Knowledge capture, October 23–25, pp. 70–77.
Osgood C.E., Suci G.J. and Tannenbaum H.P. (1957). The Measurement of Meaning. Urbana: University of Illinois Press.
Rozin P., Berman L. & Royzman E. (2010). Biases in use of positive and negative words across twenty natural languages. Cognition and Emotion, 24(3): 536–548.
Russo I., Frontini F., Quochi V. (2016). OpeNER Sentiment Lexicon Italian - LMF, ILC-CNR for CLARIN-IT repository hosted at Institute for Computational Linguistics "A. Zampolli", National Research Council, in Pisa, http://hdl.handle.net/20.500.11752/ILC-73.
Stone P. J., Dunphy D. C., Smith M. S. (1966). The general inquirer: A computer approach to content analysis. M.I.T. Press.
Tan K.L., Lee C.P., Lim K.M (2003). A Survey of Sentiment Analysis: Approaches, Datasets, and Future Research. Applied Sciences, 13: 4550.
Wen J., Lei L. (2022). Linguistic positivity bias in academic writing: A large-scale diachronic study in life sciences across 50 years. Applied Linguistics, 43(2): 340–364.
Xu Q.A., Chang V., Jayne C. (2022). A systematic review of social media-based sentiment analysis: Emerging trends and challenges. Decision Analytics Journal, 3, Elsevier, open access.
Zhan J., Jin B. (2024). Does Pollyanna hypothesis hold true in death narratives? A sentiment analysis approach. Acta Psychologica, 245: 104238.