Statistiche di sintesi

L’arco temporale che abbiamo preso in considerazione, 1948-2011, comprende le legislature che vanno dal V governo De Gasperi al IV governo Berlusconi. Si tratta di 56 Governi, 38 dei quali sono stati presieduti da leader inclusi nella nostra selezione: 7 Andreotti, 6 Fanfani, 5 Moro, 4 da De Gasperi [1], 4 Berlusconi, 2 Cossiga, 2 Spadolini, 2 Craxi, 2 Amato, 2 Prodi e 2 D’Alema.



La durata delle legislature è molto variabile e ancora più variabile è la presenza dei diversi leader nell’aula parlamentare. La longevità di Giorgio Almirante (presente costantemente per 10 legislature) si confronta con la presenza breve (sebbene intensa) di Antonio Di Pietro (2 legislature). Queste differenze, tuttavia, nell’AAT sono neutralizzate con misure relative (tassi di incidenza ogni mille parole o simili) e con studi di contesto (concordanze, queries, test statistici, indici di information retrieval).

Come si è detto, il corpus LP4 di riferimento per queste analisi è composto di 1877 interventi, per un totale di oltre 5.650.000 occorrenze di parole, che equivalgono a 11.000 pagine di testo.

Tabella 2 - Misure testometriche del corpus LP4 secondo i Leader  selezionati.

Leader
Pagine di testo
Giorni di presenza Camera Deputati
Numero di interventi
Giorni / interventi
 (B / C)
Lunghezza media
intervento
(A / C)
A
B
C
D
E
Intero corpus
11.197
21.112
1.877
11
6
ALMIRANTE
1.939
12.882
162
80
12
AMATO
187
5.396
28
193
7
ANDREOTTI
629
9.348
92
102
7
BERLINGUER
226
5.889
22
268
10
BERLUSCONI
276
5.958
63
95
4
BERSANI
88
3.430
35
98
3
BERTINOTTI
159
4.314
60
72
3
BINDI
180
5.958
68
88
3
BONINO
623
7.147
145
49
4
BOSSI
164
3.179
43
74
4
CASINI
195
5.793
94
62
2
COSSIGA
190
2.133
23
93
8
CRAXI
336
8.161
46
177
7
D’ALEMA
349
8.230
90
91
4
DE GASPERI
217
3.566
31
115
7
DE MITA
184
10.236
21
487
9
DIPIETRO
137
922
51
18
3
FANFANI
279
11.182
34
329
8
FINI
311
7.308
102
72
3
LA MALFA
568
10.314
91
113
6
MORO
524
9.441
49
193
11
NENNI
484
6.446
71
91
7
OCCHETTO
190
8.241
36
229
5
PANNELLA
1.130
5.713
212
27
5
PRODI
196
2.538
28
91
7
SARAGAT
319
5.407
26
208
12
SPADOLINI
184
1.111
19
58
10
TOGLIATTI
769
6.160
63
98
12
VELTRONI
115
5.071
49
103
2
VENDOLA
49
4.593
23
200
2

Giorgio Almirante con 2000 pagine e Marco Pannella con 1000 pagine presentano estensioni di testo che, da sole, coprono il 27,3% del totale (questo comporta qualche problema tecnico se si utilizza il corpus complessivamente come un tutto, per esempio per delle osservazioni cronologiche; e quindi per questo tipo di osservazioni è necessaria la massima cautela). In generale i discorsi raccolti per ciascun leader sono certamente rappresentativi delle loro modalità di intervento in aula: circa 500-700 pagine per Togliatti, Bonino, Andreotti, Moro, La Malfa e Nenni; 200-300 pagine per Craxi, D’Alema, Saragat, Fanfani, Berlusconi, Fini, Berlinguer, De Gasperi. 

Nell’AAT la dimensione del corpus è una caratteristica fondamentale della quale occorre tenere conto. L’ampiezza del corpus LP4 – come oggetto di studio complessivo – è tale da assicurare la robustezza delle valutazioni statistico-quantitative: il riferimento convenzionale è la type/token ratio, il cui limite massimo deve essere del 20%; nel caso in oggetto – trattandosi di un corpus di grandi dimensioni – è pari all’1,49%. 

Tabella 3 - Misure lessicometriche del corpus secondo i Leader  selezionati (Corpus LP4 normalizzato [2] e lessicalizzato [3] con TalTac2).


Leader
Parole
distinte
 V
 (types)
Occorrenze
 N
(tokens)
Type / Token
ratio
(A/B)%

Legislature
di intervento del Leader
A
B
C
E
Intero corpus
83.513
5.597.259
1,49
L1--L16
ALMIRANTE
35.828
969.079
3,70
L1--L9
AMATO
11.204
93.545
11,98
L9--L11, L13
ANDREOTTI
21.905
314.501
6,97
L1, L5--L10
BERLINGUER
11.336
112.817
10,05
L5--L9
BERLUSCONI
13.925
137.869
10,10
L12--L16
BERSANI
6.726
43.806
15,35
L14--L16
BERTINOTTI
9.342
79.731
11,72
L12--L14
BINDI
9.236
90.010
10,26
L12--L16
BONINO
19.899
311.340
6,39
L7--L12, L15
BOSSI
11.242
82.127
13,69
L11--L13
CASINI
11.239
97.684
11,51
L10,L12,L13,L15,L16
COSSIGA
10.560
95.047
11,11
L3--L8
CRAXI
15.821
168.238
9,40
L5--L11
D’ALEMA
13.370
174.288
7,67
L10--L16
DE GASPERI
12.325
108.255
11,39
L1--L2
DE MITA
10.559
92.244
11,45
L4, L8--10, L13--15
DI PIETRO
7.943
68.651
11,57
L15, L16
FANFANI
14.330
139.730
10,26
L1--L4 , L8--L10
FINI
13.616
155.713
8,74
L10--L15
LA MALFA
16.793
283.760
5,92
L1--L7
MORO
16.160
261.726
6,17
L1--L7
NENNI
18.439
242.002
7,62
L1--L 3, L5
OCCHETTO
10.486
94.830
11,06
L7--L13
PANNELLA
28.671
564.654
5,08
L7--L11
PRODI
9.429
97.955
9,63
L13, L15
SARAGAT
12.635
159.430
7,93
L1--L4
SPADOLINI
11.222
91.909
12,21
L8
TOGLIATTI
19.617
384.361
5,10
L1--L4
VELTRONI
8.438
57.300
14,73
L10, L12, L13, L16
VENDOLA
5.665
24.657
22,98
L11--L14

Se andiamo a osservare i 30 corpora distintamente notiamo che solo il corpus di Niki Vendola è di dimensioni troppo ridotte per essere considerato “statisticamente” rappresentativo.


Figura 1 - Type/token ratio nei sub-corpora dei trenta leader selezionati.



L’ampiezza dei testi, tuttavia, non ci dice ancora molto della loro rappresentatività in termini di “presenza” nel dibattito parlamentare. Purtroppo non abbiamo a disposizione una valutazione completa in termini di occorrenze dei discorsi di ciascun deputato, ma – se facciamo riferimento ai volumi pubblicati per alcuni leader dalla stessa Camera dei Deputati e che rappresentano l’edizione critica di riferimento dei discorsi parlamentari - possiamo affermare con certezza – per esempio – che i corpora in LP4 di Togliatti, Craxi, Berlinguer, Moro e Spadolini, rappresentano la totalità dei loro discorsi nella Camera dei Deputati.


[17/10/2019]


[1] Sono 4 nel periodo da noi considerato, mentre in totale De Gasperi ha presieduto 8 governi.
[2] NormalizzazioneNell’AAT, fase di standardizzazione e unificazione di grafie nel testo, di riconoscimento di entità d’interesse generale, anche complesse da entità nominali (named entities) fino a locuzioni di tipo gramma- ticale e → polirematiche. Vedi Glossario di Sergio Bolasco, anche su questo blog.
[3] LessicalizzazioneProcesso che porta a introdurre termini nuovi in una lingua; ricomposizione di una lessia complessa sotto forma di una sola → occorrenza, come nuova entrata nel vocabolario del corpus; le nuove occorrenze prodotte da una lessicalizzazione sono “parole di più parole” (multiwords) e locuzioni con funzione grammaticale: ad esempio <capo dello stato>, <politica economica>, <a carico di>, <andare al creatore>. Idem.