Qualsiasi procedura scientifica che mira a ottenere delle evidenze empiriche con la misura di un determinato fenomeno deve essere sottoposta prima di tutto a una valutazione della validità dello strumento utilizzato.
Il DTPN è un dizionario di forme flesse in cui ogni lessia è associata a una categoria di “sentiment” positivo o negativo. Si tratta dunque di una misura dicotomica della polarità. Le forme che non appaiono nel dizionario sono implicitamente assegnate a una categoria di neutralità.
Il dizionario può essere utilizzato come risorsa in un software di analisi automatica dei testi (come TaLTaC) al fine di riconoscere ed etichettare i termini in base allo loro polarità per poi conteggiarli e procedere a una misura di sintesi del profilo positivo o negativo del testo. La misura, pur con tutte le ambiguità del linguaggio, rende conto complessivamente di un “tono” che emerge dall’utilizzo delle parole. Il tono positivo/negativo dovrà poi essere valutato nel contesto d’uso analizzando in dettaglio la lista delle forme annotate. In questo senso il DTPN è un ausilio per l’analisi del contenuto emozionale di diversi testi a confronto tra loro e non una misura “assoluta” del contenuto positivo o negativo di un documento.
Il DTPN si presenta come una estensione del Dizionario degli aggettivi positivi e negativi (già incluso tra le risorse di TaLTaC) ad altre categorie grammaticali, pertanto la prima verifica di validità della misura è stata effettuata - come si è visto nel post precedente - con il confronto tra la soglia di negatività degli aggettivi e la soglia di negatività del DTPN nell’Italiano Standard e nel corpus Rep90 delle prime dieci annate del quotidiano “la Repubblica”.
Tab. 1 - Indice di negatività a confronto per tipo di corpus e dizionario utilizzato
Il passo successivo consiste in una prova di validità del contenuto positivo o negativo del testo mettendo a confronto l’indice di negatività osservato con il DTPN in quattro collezioni di documenti che - a priori - sappiamo essere molto diverse tra loro rispetto alla polarità del sentiment: si tratta di articoli di vari quotidiani italiani nel triennio 2022-2024 con riferimento alle seguenti parole chiave [1]:
- Benessere: 808 articoli con sentiment positivo di 263.937 occorrenze.
- Criminalità: 696 articoli con sentiment negativo di 261.258 occorrenze.
- Moda: 556 articoli con sentiment positivo di 193.029 occorrenze.
- Ucraina: 649 articoli con sentiment negativo di 227.939 occorrenze.
La polarità osservata con il DTPN appare molto sensibile e ben differenziata, con un innalzamento della negatività negli articoli su Criminalità e Ucraina come era atteso. La soglia di negatività del 50% è ampiamente superata. Gli articoli sulla Moda e sul Benessere ottengono un punteggio in cui vi è una netta prevalenza della polarità positiva. Nella tabella 3 sono rappresentate le forme significativamente sovra-rappresentate per ciascuna partizione di documenti rispetto al complesso inteso come un corpus [2].
Una revisione attenta della lista dei termini annotati per valutare eventuali cambiamenti di senso della connotazione o per effetto della disambiguazione di alcuni termini non ha avuto conseguenze decisive sull’Indice di Negatività. I punteggi possono variare al massimo del 2-3% e, di solito, determinano un aumento della negatività. Per esempio “criminalità organizzata” porta a sottrarre 290 occorrenze del termine organizzata dal totale delle occorrenze con connotazione positiva.
Un problema rilevante nella valutazione della polarità è rappresentato dalla negazione della frase che si esprime, nella maggior parte dei casi, con l’avverbio non e con l’avverbio/preposizione senza. Gli altri operatori della negazione più frequenti sono gli aggettivi e pronomi indefiniti nessuno/niente/nulla/mai e le congiunzioni né/nemmeno/neppure/neanche [3]. Una valutazione quantitativa della negazione non può tenere conto della complessità di un fenomeno che comporta l’uso di diversi mezzi linguistici e produce esiti semantici complessi, come la negazione della negazione [a] e la negazione pleonastica o espletiva [b]:
[a] Non c’è nessun problema.
[b] Resto finché non arriva qualcuno.
Però facendo ricorso alle espressioni regolari UNIX [4] possiamo estrarre dal corpus le “stringhe di testo” che rispondono a determinati schemi e osservare empiricamente l’impatto che la presenza degli elementi della negazione esercitano sui termini etichettati come positivi o negativi, siano essi verbi, sostantivi, aggettivi o avverbi.
L’esperienza ci suggerisce di utilizzare una portata dell’effetto della negazione fino a tre termini di distanza tra il termine negativo/positivo e l’operatore che lo precede [5]. Per esempio l’espressione “non LAG3 CATSEM(Negativo)” - oppure (Positivo) - permette di ottenere risultati come i seguenti:
[c] Non facile.
[d] Non ero brava.
[e] Non bisogna lasciarsi ingannare.
[f] Non arrivano a commettere reati.
L’impatto della negazione sul calcolo dell’Indice di Negatività, se non si ricorre a complessi algoritmi di elaborazione del linguaggio naturale come machine learning o reti neurali, può essere valutato in due modi:
- Modo 1: neutralizzazione dei termini positivi/negativi preceduti da una negazione entro le tre parole precedenti nella stessa frase (questa è la strada seguita da WordStat di Provalis).
- Modo 2: inversione della polarità dei termini negativi/positivi preceduti da una negazione entro le tre parole precedenti nella stessa frase.
Il Modo 1 consiste semplicemente nel non conteggiare i termini “contestati” nella procedura di calcolo dell’indice. Il Modo 2 consiste nel prendere in esame la lista completa dei frammenti di testo estratti per valutare, caso per caso, l’assegnazione dei termini “contestati” al sentiment positivo, negativo o neutrale; questa procedura richiede più tempo e deve essere verificata nel contesto della frase, quando invece il calcolo dell’Indice di Negatività è di per sé un indicatore basato sul lessico. Per questi motivi è più veloce e più prudente la procedura di neutralizzazione del Modo 1.
In sintesi, il confronto tra l’Indice di Negatività e il suo ricalcolo per l’effetto di “neutralizzazione” della negazione evidenzia un’incidenza trascurabile, come già osservato da Sergio Bolasco in un altro contesto [6].
Nel prossimo post si procederà a una verifica della validità concorrente mettendo a confronto la lista del DPTN con altri due strumenti di misura della polarità negativo-positivo disponibili per la lingua italiana nel software statistico R: Syuzhet e TALL.
[continua in 3/3][1] Gli articoli sono stati estratti dalla banca dati LexisNexis per i seguenti quotidiani: Corriere della sera, La Nazione, Il Resto del Carlino, Il Giorno.
[2] Le forme sono "specifiche" perché sono sovra-utilizzate in una partizione rispetto al totale del corpus (test di significatività della ipergeometrica per p<0,05).
[3] Manzotti E. e Ripamonti (1991). La negazione. In Renzi L., Salvi G., Cardinaletti A. Grande grammatica di consultazione, vol II. Bologna, il Mulino, pp. 245-317.
[4] Sito di riferimento aggiornato al 6 novembre 2024: https://www.regular-expressions.info/tutorial.html
[5] Su questo argomento vedi: Hogenboom A., van Iterson P., Heerschop B., Frasincar F., Kaymak U. (2011). Determining negation scope and strength in sentiment analysis. In IEEE International Conference on Systems, Man, and Cybernetics, pp. 2589-2594 ; Baj-Rogowska A. (2017). Sentiment analysis of Facebook posts: The Uber case. In Eighth International Conference on Intelligent Computing and Information Systems (ICICIS); WordStat - Sentiment dictionaries - Provalis Research