
L’apprendimento automatico ci sta avvicinando a un dispositivo di traduzione universale in stile “pesce di Babele”.
Meta ha presentato un nuovo modello di intelligenza artificiale in grado di tradurre il parlato di 101 lingue diverse. Si tratta di un passo avanti verso l’interpretazione simultanea in tempo reale, in cui le parole vengono tradotte non appena escono dalla bocca di qualcuno.
In genere, i modelli di traduzione per il parlato utilizzano un approccio a più fasi. Prima traducono il parlato in testo. Poi traducono il testo in un’altra lingua. Infine, il testo tradotto viene trasformato in parlato nella nuova lingua. Questo metodo può essere inefficiente e in ogni fase possono insinuarsi errori e traduzioni errate. Ma il nuovo modello di Meta, chiamato SeamlessM4T, consente una traduzione più diretta dal parlato in una lingua al parlato in un’altra. Il modello è descritto in un articolo pubblicato oggi su Nature.
Seamless è in grado di tradurre il testo con un’accuratezza superiore del 23% rispetto ai principali modelli esistenti. E sebbene un altro modello, AudioPaLM di Google, sia tecnicamente in grado di tradurre un maggior numero di lingue, 13 contro le 101 di Seamless, può tradurle solo in inglese. SeamlessM4T può tradurre in altre 36 lingue.
La chiave è un processo chiamato data mining parallelo, che individua i casi in cui il suono di un video o di un audio corrisponde a un sottotitolo in un’altra lingua dai dati web raccolti. Il modello ha imparato ad associare i suoni in una lingua con le parti di testo corrispondenti in un’altra. In questo modo, il modello ha scoperto una nuova serie di esempi di traduzioni.
“Meta ha fatto un ottimo lavoro supportando un’ampia gamma di funzioni, come il text-to-speech, lo speech-to-text e persino il riconoscimento vocale automatico”, afferma Chetan Jaiswal, professore di informatica alla Quinnipiac University, che non ha partecipato alla ricerca. “Il solo numero di lingue supportate è un risultato straordinario”.
I traduttori umani sono ancora una parte vitale del processo di traduzione, affermano i ricercatori nel documento, perché possono confrontarsi con contesti culturali diversi e assicurarsi che lo stesso significato sia trasmesso da una lingua all’altra. Questo passaggio è importante, afferma Lynne Bowker, Canada Research Chair in Translation, Technologies and Society presso l’Université Laval in Quebec, che non ha lavorato a Seamless. “Le lingue sono il riflesso delle culture e le culture hanno i loro modi di conoscere le cose”, afferma la Bowker.
Quando si tratta di applicazioni come la medicina o la legge, le traduzioni automatiche devono essere accuratamente controllate da un essere umano. In caso contrario, potrebbero verificarsi dei fraintendimenti. Ad esempio, quando Google Translate è stato utilizzato per tradurre le informazioni sulla salute pubblica relative al vaccino covid-19 del Dipartimento della Salute della Virginia nel gennaio 2021, ha tradotto “non obbligatorio” in inglese in “non necessario” in spagnolo, cambiando l’intero significato del messaggio.
I modelli di intelligenza artificiale hanno molti più esempi su cui allenarsi in alcune lingue rispetto ad altre. Ciò significa che gli attuali modelli speech-to-speech possono essere in grado di tradurre una lingua come il greco in inglese, dove ci sono molti esempi, ma non possono tradurre dallo swahili al greco. Il team di Seamless ha cercato di risolvere questo problema pre-addestrando il modello su milioni di ore di audio parlato in diverse lingue. Questo pre-addestramento gli ha permesso di riconoscere gli schemi generali del linguaggio, rendendo più facile l’elaborazione di lingue meno diffuse, perché aveva già una base di riferimento per il suono del linguaggio parlato.
Il sistema è open-source, cosa che i ricercatori sperano incoraggi altri a sviluppare le sue capacità attuali. Ma alcuni sono scettici sulla sua utilità rispetto alle alternative disponibili. “Il modello di traduzione di Google non è open-source come Seamless, ma è molto più reattivo e veloce, e non costa nulla come accademico”, dice Jaiswal.
L’aspetto più entusiasmante del sistema di Meta è che indica la possibilità di un’interpretazione istantanea tra le lingue in un futuro non troppo lontano, come il pesce di Babele del romanzo cult di Douglas Adams Guida galattica per gli autostoppisti. SeamlessM4T è più veloce dei modelli esistenti, ma non è ancora istantaneo. Meta sostiene di avere una nuova versione di Seamless che è veloce quanto gli interpreti umani.
“Sebbene questo tipo di traduzione ritardata sia utile e corretta, credo che la traduzione simultanea sarà ancora più utile”, afferma Kenny Zhu, direttore dell’Arlington Computational Linguistics Lab dell’Università del Texas ad Arlington, che non è affiliato alla nuova ricerca.