G.A.T.T.O. ed i corpora testuali

di Giordano Clemente

Sempre più spesso, lo sviluppo delle cosiddette Digital Humanities fa parlare di sé. Disciplina, questa, sviluppatasi nel corso della seconda metà dello scorso secolo e che oggi, come diretta conseguenza dell’informatizzazione della società, sembra essere più attuale che mai. La traduzione italiana dell’espressione, per quanto non letterale, ne esplicita pragmaticamente il significato: informatica umanistica. In sintesi, si tratta di applicare le più recenti acquisizioni tecnologiche agli studi umanistici in senso lato; una complementarità a lungo dibattuta, considerato l’apparente aut-aut metodologico. È anche nell’ottica di affrontare finalmente questi tabù che i due atenei losannesi, UNIL ed EPFL, offriranno congiuntamente la possibilità di seguire un Master interdisciplinare a partire dal semestre prossimo (settembre ’16).

Sarebbe però sbagliato pensare che non esistano già degli strumenti informatici funzionali alla ricerca umanistica. In questo senso basti pensare a GattoWeb, versione online del software GATTO messa a disposizione dall’OVI (Opera del Vocabolario Italiano). Quest’ultimo è l’istituto incaricato dagli anni ’60 di redigere un nuovo thesaurus della lingua italiana delle origini (TLIO), lavoro che da allora svolge incessantemente. L’avvento delle nuove tecnologie ha dato un nuovo impulso all’impresa, ma ha anche posto gli studiosi di fronte alla necessità di una nuova prassi. Ecco quindi che entra in gioco il software di cui sopra; il GATTO (Gestione degli Archivi Testuali del Tesoro delle Origini) permette la creazione e gestione di corpus testuali come quelli del vocabolario storico. Non solo è scaricabile liberamente ma è anche consultabile online. All’interno dei corpora consultabili diventa in seguito possibile cercare le ricorrenze tanto di singole parole quanto di forme o autori. Numerosi filtri permettono inoltre di perfezionare la ricerca in base alle necessità, alcuni disponibili però solo per corpora specifici tra i quali un notevole uso degli iperlemmi che permettono d’individuare parole tra loro legate concettualmente (“fiorino“ rimanda all’iperlemma “moneta“).

Proprio per diffondere la conoscenza di questo mezzo e promuoverne, per un comune beneficio, l’utilizzo tra gli studiosi, Paolo Squillacioti ha più volte preso parte a convegni e seminari. Ricercatore per l’OVI e redattore del TLIO, Squillacioti ne è oggi coordinatore della redazione. Incontriamolo quindi, nel corso di una conferenza sull’argomento, per farci spiegare alcune caratteristiche del sistema e dei suoi impieghi.

Il lavoro sul corpus è una realtà da ormai cinquant’anni. Com’è evoluto in questo lasso di tempo non indifferente?

Il lavoro cominciato nel ’65 era senza dubbio diverso sia nell’impostazione che nei mezzi informatici e non. Si trattava innanzitutto di costituire una banca dati sufficientemente estesa per poter iniziare il processo redazionale. Questo momento è stato raggiunto nel 1996, nel frattempo il progetto ha subito qualche ridimensionamento così come anche l’organo preposto al suo completamente ha più volte cambiato natura. Inizialmente era infatti l’Accademia della Crusca ad occuparsene in maniera diretta, l’OVI è andato poi costituendosi quando già si parlava più specificamente di un thesaurus dell’italiano delle origini. Ai tempi si partiva giocoforza da un’analisi individuale dei testi, questa portava inevitabilmente a delle interpretazioni diverse e dunque a delle incoerenze interne. Oggi si tratta invece di lemmatizzare a partire da un corpus testuale già costituito e informatizzato. Un lavoro eseguito sì forma per forma ma più trasversalmente rispetto alla totalità dei testi.

Come procede il lavoro sul TLIO, con che criteri?

Ad oggi son state pubblicate più di 32 000 voci su un totale stimato di 57 000. Si avanza con una media di 2 000 voci all’anno grazie all’impegno di circa una ventina di persone, tra ricercatori di ruolo, tecnici e collaboratori. Non si procede al completamento delle forme per ordine alfabetico quanto piuttosto per necessità.

Si può dunque già stimare almeno teoricamente il completamento dell’opera. Sono già previsti per il futuro progetti simili, legati magari ad un perfezionamento del sistema?

Sulle voci complete è già cominciato il processo necessario di revisione, quando sarà terminato il lavoro principale ci dedicheremo interamente a quello. Non è da escludere inoltre la possibilità di un aggiornamento di sistema; l’ottimizzazione informatica, però, genererebbe anche altri problemi. Tra questi la sostituzione di un testo del corpus con una sua versione edita più recente porterebbe inevitabilmente alla perdita della lemmatizzazione delle forme ad esso collegate, ovvero alla perdita dei legami ipertestuali. Si tratterebbe in questo caso di operare una sostituzione manuale che, pur avendo già a disposizione i dati necessari, richiederebbe un certo tempo.

Internet ha concretizzato il concetto di citizien science, permettendo al singolo internauta di contribuire gratuitamente e volontariamente ai più disparati progetti di ricerca. È possibile immaginare l’open source in relazione – tramite GATTO – al corpus del TLIO?

Questo tipo di operazione non è permessa all’utente; questi non ha i mezzi di contribuire alla lemmatizzazione del corpus del TLIO, ma solo di quelli che lui stesso crea e gestisce. Il software GATTO permette effettivamente di creare nuovi corpora a partire da nuovi testi, ad esempio, ma la lemmatizzazione degli stessi rimane un’operazione locale. La piattaforma web non dispone, infatti, delle funzioni di lemmatizzazione.

Al di là delle ragioni essenzialmente scientifiche, abbiamo già testato internamente l’applicazione di un concetto simile con risultati non ottimali. Più persone hanno lavorato su parti diverse di uno stesso corpus per poi provare ad unirle; la quantità di tempo richiesta per verificare le concordanze, eliminare le voci ridondanti ed in generale la correzione si è rivelata ingestibile nell’ottica del nostro progetto.

Per velocizzare il processo di lemmatizzazione, la nuova versione – sperimentale – di GATTO è ad ogni modo in grado di proporre lemmi per le forme non ancora interpretate in base a quelle già inserite nel corpus. Certo, accettare queste proposte rimane compito dei ricercatori; per l’interpretazione della forma scritta – in quanto atto umano e pertanto irregolare – la sensibilità umana è ancora necessaria. I tempi richiesti sono in questo caso, però, più ragionevoli.

Post navigation