Skip to main content

I sistemi di apprendimento automatico si sono dimostrati in grado di tradurre le lingue estinte da tempo e potrebbero essere ora applicati alle lingue che non sono mai state decifrate.

di ArXiv

Nel 1886, l’archeologo britannico Arthur Evans si trovò di fronte a un’antica pietra con una curiosa serie di iscrizioni in una lingua sconosciuta. La pietra proveniva dall’isola mediterranea di Creta, e Evans vi si recò immediatamente a caccia di altre prove, che trovò numerose. La datazione delle pietre e tavolette con scritte simili fu dall’archeologo fatta risalire al 1400 a.C. circa.

Queste iscrizioni rappresentano una delle prime forme di scrittura mai scoperte. Evans sostenne che la forma lineare era chiaramente derivata da immagini di linee rozzamente scalfite appartenenti all’infanzia dell’arte, e le definì una scoperta di importanza basilare nella storia della linguistica.

Evans e altri studiosi hanno in seguito stabilito che le pietre e le tavolette erano scritte in due sistemi diversi. Il più antico, chiamato Lineare A, risale al periodo tra il 1800 e il 1400 a.C., quando l’isola era dominata dalla civiltà minoica dell’Età del Bronzo.

L’altro sistema, la Lineare B, è più recente, apparve solo dopo il 1400 a.C., quando l’isola fu conquistata dai micenei provenienti dalla Grecia continentale.

Per molti anni, gli esperti hanno cercato di decifrare le scritture antiche, ma le lingue morte hanno resistito a tutti i tentativi. Il problema rimase irrisolto fino al 1953, quando un linguista dilettante di nome Michael Ventris decifrò il codice della Lineare B.

La sua soluzione è stata possibile grazie a due decisivi passi in avanti. In primo luogo, Ventris ipotizzò che molte delle parole ripetute nel vocabolario della Lineare B fossero nomi di luoghi dell’isola di Creta. Questa intuizione si è rivelata corretta.

Il secondo passo fu di assumere che la scrittura registrasse una prima forma di antico greco. Questa intuizione gli permise immediatamente di decifrare il resto della lingua. Ventris dimostrò che il greco antico aveva fatto la sua comparsa in forma scritta molti secoli prima di quanto si pensasse in precedenza.

Il lavoro di Ventris è stato una pietra miliare della linguistica, ma il sistema di scrittura più antico, la Lineare A, è fino a oggi rimasto un mistero insoluto.

Non è difficile immaginare che i recenti progressi nella traduzione automatica possano aiutare. In pochi anni, lo studio della linguistica è stato rivoluzionato dalla disponibilità di enormi database annotati e tecniche per far sì che le macchine imparassero da loro.

Di conseguenza, la traduzione automatica da una lingua all’altra è diventata routine. E anche se non perfetti, questi metodi hanno fornito un modo completamente nuovo di pensare al linguaggio.

Jiaming Luo e Regina Barzilay del MIT e Yuan Cao del laboratorio di intelligenza artificiale di Google, a Mountain View, in California, hanno sviluppato un sistema di apprendimento automatico in grado di decifrare le lingue morte e lo hanno dimostrato, per la prima volta con un sistema automatico, con la Lineare B. L’approccio utilizzato è stato molto diverso dalle tecniche standard di traduzione automatica.

Ma per capire è meglio fare prima un passo indietro. La grande idea alla base della traduzione automatica è la comprensione che le parole sono correlate l’una con l’altra in modi simili, indipendentemente dalla lingua in questione.

Quindi il processo inizia mappando queste relazioni per una lingua specifica. Ciò richiede enormi database di testo. Una macchina, poi, analizza questo testo per vedere quanto spesso alcune parole appaiano vicino ad altre. Questo sistema di relazioni è una firma unica che definisce la parola in uno spazio parametrico multidimensionale.

In effetti, la parola può essere pensata come un vettore all’interno di questo spazio. E questo vettore agisce come un potente vincolo sul valore che la parola assume nella traduzione.

Questi vettori obbediscono a semplici regole matematiche. Per esempio: re – uomo + donna = regina. E una frase può essere pensata come un insieme di vettori che si susseguono uno dopo l’altro per formare un percorso unico.

L’intuizione chiave che consente la traduzione automatica è che le parole in lingue diverse occupano gli stessi punti nei rispettivi spazi parametrici. Ciò rende possibile mappare un’intera lingua a partire da un’altra lingua con una corrispondenza uno-a-uno.

In questo modo, il processo di traduzione delle frasi diventa la capacità di trovare traiettorie simili attraverso questi spazi. La macchina non ha nemmeno bisogno di “sapere” il significato delle frasi.

Questo processo dipende in modo cruciale dai grandi insiemi di dati. Ma un paio di anni fa un team tedesco di ricercatori ha mostrato come un approccio simile con database molto più piccoli potrebbe aiutare a tradurre lingue rare e prive di grandi database di testo. Il trucco è adottare metodi che limitino l’utilizzo del database da parte delle macchine.

Luo e colleghi sono partiti dallo studio del modo in cui le lingue si sono evolute nel tempo. La loro idea è che qualsiasi lingua si modifichi seguendo sempre le stesse regole: per esempio, i simboli nelle lingue della stessa famiglia appaiono con distribuzioni simili, le parole correlate hanno lo stesso ordine di caratteri e così via. Con queste regole che vincolano la macchina, diventa molto più facile decifrare una lingua, a condizione che la lingua ancestrale sia nota.

Luo e colleghi hanno messo alla prova la loro tecnica con due lingue estinte, la Lineare B e la Ugaritica. I linguisti sanno che la Lineare B codifica una prima versione dell’antico greco e che l’Ugaritica, scoperta nel 1929, è una primitiva forma di ebraico.

Con a disposizione le informazioni e i vincoli imposti dall’evoluzione linguistica, il sistema automatico di Luo e colleghi è stato in grado di tradurre entrambe le lingue con notevole accuratezza. “Siamo stati in grado di tradurre correttamente il 67,3 per cento delle scritte affini al Lineare B nei loro equivalenti greci”, ha dichiarato Luo. “Per quanto ne sappiamo, il nostro esperimento è il primo tentativo di decifrare automaticamente la Lineare B”.

È un lavoro che alza il livello di credibilità dei sistemi di traduzione automatica e riapre fronti interessanti rispetto ad altre lingue estinte, in particolare quelle che non sono mai state decifrate, come la lineare A.

Nella loro ricerca, Luo e colleghi non ne parlano affatto. Ma il grande vantaggio delle traduzioni automatiche è che possono testare rapidamente una lingua dopo l’altra senza affaticarsi. Quindi è abbastanza probabile che Luo e colleghi possano affrontare la Lineare A con una ricerca esaustiva della soluzione, vale a dire tentare di decifrarla nelle lingue già tradotte automaticamente.

Rif: arxiv.org/abs/1906.06718

Immagine: Don Lloyd / Flickr

(rp)