La normalizzazione delle iniziali maiuscole

La fase di normalizzazione si svolge durante il pre-trattamento del testo al fine di standardizzare le diverse grafie, permettere l'individuazione dei nomi e di altre entità utili per l'anali e ridurre l'ambiguità delle forme omografe. Per esempio: rosa (il fiore) e Rosa (nome proprio). In questo esempio l'ambiguità si risolve nel testo con l'uso della maiuscola. La maiuscola è una forma di enfasi tipografica che permette di contrassegnare alcune parole oppure di segnalare, durante la lettura, la scansione del discorso con attraverso la  punteggiatura. Per un corretto riconoscimento delle parole, il software deve essere istruito affinché esegua la riduzione delle maiuscole precedute da determinati segni di punteggiatura (tipicamente: il punto fermo, il punto esclamativo e il punto interrogativo), tenendo conto delle parole che devono essere lasciate con l'iniziale maiuscola, tramite liste di controllo con parole appartenenti a diverse categorie, come accade con il nome proprio "Rosa".

Nei manuali di stile per il corretto uso delle iniziali maiuscole sono indicate diverse soluzioni convenzionali: nomi e cognomi di persona si scrivono in maiuscolo; i nomi di popolazioni e i nomi di abitanti (italiani, francesi, napoletani) si scrivono in minuscolo (a meno che vengano utilizzati per identificare popolazioni antiche come: i Celti, gli Etruschi, ecc.); le aree geografiche si scrivono in maiuscolo (l'Artide, l'America, il Nord Pacifico); le gli edifici si scrivono minuscolo (il municipio, il cimitero generale, la stazione ferroviaria), ma non gli edifici che hanno una particolare rilevanza (il Colosseo, la Casa Bianca, Palazzo Chigi). Insomma ogni categoria di nomi e termini ha le sue regole, ma non si tratta di regole fisse: ogni editore ha un proprio manuale di stile e di editing ad uso delle redazioni. Inoltre le regole cambiano secondo la qualità e la natura dei documenti (narrativa, testi scientifici, documenti ufficiali) e anche seguendo le mode e i cambiamenti nel corso del tempo. Attualmente nelle regole di editing più diffuse troviamo spesso l'indicazione di evitare il più possibile l'enfasi tipografica, sia per quanto riguarda i caratteri in corsivo e in grassetto che per le maiuscole.

Nell'analisi automatica dei testi tutte queste considerazioni devono tenere conto del fatto che l'obiettivo è produrre dati da sottoporre ad analisi quantitativa e non di produrre documenti esteticamente piacevoli per la lettura. Pertanto tutte le scelte che ne conseguono e le convenzioni che si adottano devono essere sottoposte alla necessità della standardizzazione e del rigore scientifico.

In particolare, durante il processo di normalizzazione, occorre tenere conto della natura dei documenti che costituiscono il corpus.

Nel nostro caso si tratta di documenti informativi prodotti dalla Camera dei deputati nel corso del suo regolare funzionamento: il processo verbale e la trascrizione degli interventi in Assemblea raccolti negli Atti parlamentari pubblicati a stampa dalla tipografia della Camera. Nonostante l'ufficialità dei testi le regole di stile dal 1948 al 2011 sono cambiate moltissimo e, anche all'interno di uno stesso documento, non sempre sono applicate in modo uniforme e rigoroso.

Vediamo alcuni esempi.
Paese, se riferito alla nazione dovrebbe essere scritto con iniziale maiuscola, eppure per il 75% la grafia è in minuscolo, pur non avendo come riferimento - seguendo la regola - la "piccola città".
Le denominazioni ufficiali dei partiti dovrebbe essere in maiuscolo (Partito Comunista Italiano, Democrazia Cristiana, Partito Radicale) eppure fino agli inizi degli anni '90 (XI legislatura) appaiono in minuscolo: partito comunista italiano, partito socialista, partito liberale, democrazia cristiana); mentre Movimento sociale italiano e Lega nord, sono sempre indicati con l'iniziale maiuscola della prima parola.
Le denominazioni ufficiali di organi governativi, giuridici o amministrativi e le istituzioni dello Stato dovrebbero essere scritti con iniziali maiuscole (Ministero della Difesa, Consiglio dei Ministri, Corte di Cassazione, Forze Armate), eppure negli Atti parlamentari troviamo sempre (o prevalentemente, per essere più cauti): Ministero della difesa, Consiglio dei ministri, Corte di cassazione, Forze armate.

Infine è necessario tenere conto che il processo di normalizzazione si pone in un contesto di analisi scientifica che si basa sulla digitalizzazione del testo e sulla elaborazione automatica effettuata con un software. Nel nostro caso la scelta di TaLTaC2 come software di riferimento ha orientato in modo molto preciso le scelte di normalizzazione, portando ad adeguare forme grafiche non previste dalle risorse linguistiche di TaLTaC2 in modo tale da essere coerenti con le scelte a priori effettuate dagli autori del Software stesso.

Nel prospetto seguente, per alcune forme grafiche rilevanti, sono indicate le normalizzazioni delle maiuscole/minuscole eseguite da TaLTaC2 e quelle eseguite nel contesto della ricerca per coerenza con le precedenti. In alcuni casi, a titolo di esempio, è indicata la percentuale approssimativa della forma grafica prevalente nel documento.


Forma grafica documentale
Forma grafica normalizzata da TaLTaC2
Forma grafica normalizzata per coerenza
Alleanza atlantica
Alleanza Atlantica
camera del lavoro
Camera del Lavoro
camera di commercio
Camera di Commercio
Carta costituzionale
Carta Costituzionale
Casa delle libertà
Casa delle Libertà
Cassa depositi e prestiti
Cassa Depositi e Prestiti
commissione / Commissione (76%)
Commissione
comuni (99%) */ Comuni
comuni
Comunità europea
Comunità Europea
consiglio comunale
Consiglio comunale
consiglio d'amministrazione
Consiglio d'amministrazione
consiglio nazionale
Consiglio nazionale
consiglio provinciale
Consiglio provinciale
consiglio regionale
Consiglio regionale
corte d'appello
Corte d'appello
corte d'assise
Corte d' assise
DC
Dc
democrazia cristiana
Democrazia Cristiana
Destra nazionale
Destra Nazionale
Fondo monetario
Fondo Monetario
Fondo monetario internazionale
Fondo Monetario Internazionale
giunta regionale
Giunta regionale
Guardia costiera
Guardia Costiera
Guardia di finanza
Guardia di Finanza
Lotta continua
Lotta Continua
Ministero degli interni
ministero degli Interni
Ministero dei lavori pubblici
ministero dei Lavori Pubblici
Ministero del bilancio
ministero del Bilancio
Ministero del lavoro
ministero del Lavoro
Ministero del tesoro
ministero del Tesoro
Ministero della difesa
ministero della Difesa
Ministero di grazia e giustizia
ministero di Grazia e Giustizia
ministri degli esteri
ministri degli Esteri
ministro (90%) / Ministro
ministro
Ministro degli esteri
ministro degli Esteri
Ministro dei trasporti
ministro dei Trasporti
Ministro del bilancio
ministro del Bilancio
Ministro della giustizia
ministro della Giustizia
Movimento sociale
Movimento Sociale
Movimento sociale italiano
Movimento Sociale Italiano
Movimento sociale italiano-destra nazionale
Movimento Sociale Italiano-Destra Nazionale

Movimento sociale-destra nazionale
Movimento Sociale-Destra Nazionale
MSI
Msi
MSI-destra nazionale
MSI-Destra Nazionale
paese (90%) / Paese
paese
partito (98%) **/ Partito
partito
partito della rifondazione comunista
Partito della Rifondazione comunista

partito democratico della sinistra
Partito Democratico della Sinistra
partito di maggioranza
Partito di maggioranza
partito popolare
Partito Popolare
partito popolare europeo
Partito Popolare europeo
partito popolare trentino-tirolese
Partito Popolare trentino-tirolese
patto (85%) / Patto
patto
patto di Varsavia
Patto di Varsavia
PCI
Pci
PCUS
Pcus
PDS
Pds
PPI
Ppi
Presidente del Consiglio
presidente del Consiglio
Presidente del Consiglio dei ministri
presidente del Consiglio dei ministri

presidente del Consiglio superiore della magistratura
presidente del Consiglio Superiore della Magistratura

Presidente del Senato
presidente del Senato
Presidente della Camera
presidente della Camera
Presidente della Commissione
presidente della Commissione
Presidente della Repubblica
presidente della Repubblica
Presidente designato
presidente designato
Presidente incaricato
presidente incaricato
Presidenti del Consiglio
presidenti del Consiglio
PRI
Pri
province (99%) / Province
province
PSDI
Psdi
PSI
Psi
pubblica amministrazione
Pubblica Amministrazione
pubblica sicurezza
Pubblica Sicurezza
pubblico ministero
Pubblico ministero
regioni / Regioni (99%)
regioni
rifondazione comunista
Rifondazione comunista
Santa sede
Santa Sede
Società delle nazioni
Società delle Nazioni
SPD
Spd
SVP
Svp
UDEUR
Udeur
UDR
Udr
UIL
Uil
Vicepresidente del Consiglio
vicepresidente del Consiglio

* L'aggettivo plurale "comuni" non è compreso nel conteggio.
** Il participio passato di "partire" non è compreso nel conteggio.

[30/05/2019]