Skip to main content
Raven Jiang

I traduttori automatici hanno reso più facile che mai creare articoli di Wikipedia pieni di errori in lingue oscure. Cosa succede quando i modelli di IA vengono addestrati su pagine spazzatura?

Quando Kenneth Wehr ha iniziato a gestire la versione in lingua groenlandese di Wikipedia quattro anni fa, la sua prima azione è stata quella di cancellare quasi tutto. Pensava che fosse necessario, se voleva che avesse qualche possibilità di sopravvivere.

Wehr, che ha 26 anni, non è originario della Groenlandia, ma è cresciuto in Germania, tuttavia dopo aver visitato l’isola da adolescente, un territorio autonomo danese, ne era rimasto affascinato. Ha trascorso anni a scrivere articoli oscuri su Wikipedia nella sua lingua madre su praticamente tutto ciò che la riguardava. Ha persino finito per trasferirsi a Copenaghen per studiare il groenlandese, una lingua parlata da circa 57.000 persone, per lo più indigene Inuit, sparse in dozzine di villaggi artici remoti.

L’edizione in lingua groenlandese è stata aggiunta a Wikipedia intorno al 2003, pochi anni dopo il lancio del sito in inglese. Quando Wehr ne assunse la guida quasi 20 anni dopo, centinaia di wikipediani avevano contribuito alla sua creazione e avevano scritto collettivamente circa 1.500 articoli per un totale di decine di migliaia di parole. Sembrava essere un’impressionante conferma dell’approccio di crowdsourcing che ha reso Wikipedia la fonte di riferimento per le informazioni online, dimostrando che poteva funzionare anche nei luoghi più impensabili.

C’era solo un problema: la Wikipedia groenlandese era un miraggio.

Praticamente ogni singolo articolo era stato pubblicato da persone che in realtà non parlavano la lingua. Wehr, che ora insegna groenlandese in Danimarca, ipotizza che forse solo uno o due groenlandesi abbiano mai contribuito. Ma ciò che lo preoccupava di più era un’altra cosa: col passare del tempo, aveva notato che un numero crescente di articoli sembrava essere stato copiato e incollato su Wikipedia da persone che utilizzavano traduttori automatici. Erano pieni di errori elementari, da errori grammaticali a parole senza senso a inesattezze più significative, come una voce che affermava che il Canada aveva solo 41 abitanti. Altre pagine a volte contenevano stringhe casuali di lettere generate da macchine incapaci di trovare parole groenlandesi adeguate per esprimersi.

“Potrebbe sembrare groenlandese [agli autori], ma non avevano modo di saperlo”, si lamenta Wehr.

“Le frasi non avevano alcun senso o contenevano errori evidenti”, aggiunge. “I traduttori AI sono davvero pessimi con il groenlandese”.

Ciò che Wehr descrive non è un caso unico dell’edizione groenlandese.

Wikipedia è il progetto multilingue più ambizioso dopo la Bibbia: esistono edizioni in oltre 340 lingue e altre 400 ancora più oscure sono in fase di sviluppo e test. Molte di queste edizioni più piccole sono state sommerse da contenuti tradotti automaticamente, dato che l’intelligenza artificiale è diventata sempre più accessibile. I volontari che lavorano su quattro lingue africane, ad esempio, hanno stimato al MIT Technology Review che tra il 40% e il 60% degli articoli nelle loro edizioni di Wikipedia erano traduzioni automatiche non corrette. E dopo aver controllato l’edizione di Wikipedia in inuktitut, una lingua indigena simile al groenlandese parlata in Canada, il MIT Technology Review stima che più di due terzi delle pagine contenenti più di alcune frasi presentano parti create in questo modo.

Questo sta cominciando a causare un problema complesso. I sistemi di intelligenza artificiale, da Google Translate a ChatGPT, imparano a “parlare” nuove lingue raccogliendo enormi quantità di testo da Internet. Wikipedia è talvolta la più grande fonte di dati linguistici online per le lingue con pochi parlanti, quindi qualsiasi errore in quelle pagine, grammaticale o di altro tipo, può avvelenare le fonti da cui l’intelligenza artificiale dovrebbe attingere. Ciò può rendere la traduzione di queste lingue da parte dei modelli particolarmente soggetta a errori, creando una sorta di circolo vizioso linguistico, poiché le persone continuano ad aggiungere sempre più pagine Wikipedia tradotte male utilizzando questi strumenti e i modelli di IA continuano ad allenarsi su pagine tradotte male. È un problema complicato, ma si riduce a un concetto semplice: se entrano dati spazzatura, escono dati spazzatura.

“Questi modelli sono costruiti su dati grezzi”, afferma Kevin Scannell, ex professore di informatica alla Saint Louis University che ora crea software su misura per le lingue in via di estinzione. “Cercheranno di imparare tutto su una lingua partendo da zero. Non ci sono altri input. Non ci sono libri di grammatica. Non ci sono dizionari. Non c’è nient’altro che il testo che viene inserito”.

Non esistono dati perfetti sulla portata di questo problema, in particolare perché molti dati di addestramento dell’IA sono riservati e il settore continua a evolversi rapidamente. Tuttavia, nel 2020, si stimava che Wikipedia costituisse più della metà dei dati di addestramento inseriti nei modelli di IA che traducevano alcune lingue parlate da milioni di persone in Africa, tra cui il malgascio, lo yoruba e lo shona. Nel 2022, un team di ricerca tedesco che ha esaminato quali dati potessero essere ottenuti tramite lo scraping online ha persino scoperto che Wikipedia era l’unica fonte facilmente accessibile di dati linguistici online per 27 lingue con scarse risorse.

Ciò potrebbe avere ripercussioni significative nei casi in cui Wikipedia è scritta male, spingendo potenzialmente le lingue più vulnerabili della Terra verso il precipizio, poiché le generazioni future iniziano ad allontanarsi da esse.

“Wikipedia si rifletterà nei modelli di intelligenza artificiale per queste lingue”, afferma Trond Trosterud, linguista computazionale dell’Università di Tromsø in Norvegia, che da anni lancia l’allarme sui potenziali effetti dannosi di edizioni di Wikipedia mal gestite. “Trovo difficile immaginare che non ci saranno conseguenze. E, naturalmente, più Wikipedia avrà una posizione dominante, peggio sarà”.

Usare in modo responsabile

L’automazione è stata integrata in Wikipedia sin dai suoi esordi. I bot mantengono operativa la piattaforma: riparano i link non funzionanti, correggono gli errori di formattazione e persino gli errori ortografici. Questi compiti ripetitivi e banali possono essere automatizzati senza particolari problemi. Esiste persino un esercito di bot che si affaccendano a generare brevi articoli su fiumi, città o animali inserendo i loro nomi in frasi stereotipate. In generale, hanno migliorato la piattaforma.

Ma l’IA è diversa. Chiunque può usarla per causare danni ingenti con pochi clic.

Wikipedia ha gestito l’avvento dell’era dell’IA meglio di molti altri siti web. Non è stata invasa da bot IA o disinformazione, come invece è successo ai social media. Conserva in gran parte l’innocenza che caratterizzava la prima era di Internet. Wikipedia è aperta e gratuita per chiunque voglia usarla, modificarla e attingervi, ed è gestita dalla stessa comunità che serve. È trasparente e facile da usare. Ma le piattaforme gestite dalla comunità vivono e muoiono in base alle dimensioni delle loro comunità. L’inglese ha trionfato, mentre il groenlandese è affondato.

“Abbiamo bisogno di buoni wikipediani. È qualcosa che la gente dà per scontato. Non è magia”, dice Amir Aharoni, membro del Comitato linguistico volontario, che supervisiona le richieste di apertura o chiusura delle edizioni di Wikipedia. “Se si usa la traduzione automatica in modo responsabile, può essere efficiente e utile. Purtroppo, non si può fidarsi che tutti la usino in modo responsabile”.

Trosterud ha studiato il comportamento degli utenti delle edizioni minori di Wikipedia e afferma che l’intelligenza artificiale ha dato potere a un sottogruppo che lui definisce “dirottatori di Wikipedia”. Questi utenti possono essere molto diversi tra loro: da adolescenti ingenui che creano pagine sulle loro città natali o sui loro YouTuber preferiti a wikipediani ben intenzionati che pensano che creando articoli in lingue minoritarie stiano in qualche modo “aiutando” quelle comunità.

“Il problema con loro al giorno d’oggi è che sono armati di Google Translate”, afferma Trosterud, aggiungendo che questo permette loro di produrre contenuti molto più lunghi e plausibili di quanto potessero fare prima: “In passato erano armati solo di dizionari”.

Questo ha di fatto industrializzato gli atti di distruzione, che colpiscono maggiormente le lingue vulnerabili, poiché le traduzioni basate sull’intelligenza artificiale sono in genere molto meno affidabili per queste ultime. Ci possono essere molte ragioni diverse per questo, ma una parte significativa del problema è la quantità relativamente piccola di testi di origine disponibili online. A volte i modelli hanno difficoltà a identificare una lingua perché è simile ad altre, o perché alcune, tra cui il groenlandese e la maggior parte delle lingue native americane, hanno strutture che le rendono poco adatte al funzionamento della maggior parte dei sistemi di traduzione automatica. (Wehr osserva che in groenlandese la maggior parte delle parole sono agglutinanti, il che significa che sono costruite aggiungendo prefissi e suffissi alle radici. Di conseguenza, molte parole sono estremamente specifiche del contesto e possono esprimere idee che in altre lingue richiederebbero una frase completa).

Una ricerca condotta da Google prima di una grande espansione di Google Translate lanciata tre anni fa ha rilevato che i sistemi di traduzione per le lingue con minori risorse erano generalmente di qualità inferiore rispetto a quelli per le lingue con maggiori risorse. I ricercatori hanno scoperto, ad esempio, che il loro modello spesso traduceva in modo errato i nomi comuni in tutte le lingue, compresi i nomi degli animali e dei colori. (In una dichiarazione al MIT Technology Review, Google ha scritto che si impegna a soddisfare uno standard di qualità elevato per tutte le 249 lingue che supporta, testando e migliorando rigorosamente i propri sistemi, in particolare per le lingue che potrebbero avere risorse testuali pubbliche limitate sul web).

Wikipedia stessa offre uno strumento di modifica integrato chiamato Content Translate, che consente agli utenti di tradurre automaticamente gli articoli da una lingua all’altra, con l’idea di risparmiare tempo preservando i riferimenti e la formattazione complessa degli originali. Tuttavia, questo strumento si basa su sistemi di traduzione automatica esterni, quindi è in gran parte affetto dagli stessi punti deboli degli altri traduttori automatici, un problema che secondo la Wikimedia Foundation è difficile da risolvere. Spetta alla comunità di ciascuna edizione decidere se questo strumento è consentito, e alcune hanno deciso di non utilizzarlo. (In particolare, la Wikipedia in lingua inglese ne ha in gran parte vietato l’uso, sostenendo che circa il 95% degli articoli creati utilizzando Content Translate non soddisfaceva uno standard accettabile senza un significativo lavoro aggiuntivo). Tuttavia, è almeno facile capire quando il programma è stato utilizzato, poiché Content Translate aggiunge un tag sul back-end di Wikipedia.

Altri programmi di IA possono essere più difficili da monitorare. Tuttavia, molti editori di Wikipedia con cui ho parlato hanno affermato che, una volta che le loro lingue sono state aggiunte ai principali strumenti di traduzione online, hanno notato un corrispondente aumento della frequenza con cui venivano create pagine di scarsa qualità, probabilmente tradotte automaticamente.

Alcuni wikipediani che utilizzano l’IA per tradurre i contenuti ammettono occasionalmente di non parlare le lingue di destinazione. Potrebbero considerarsi come fornitori di articoli grezzi a comunità più piccole, che gli utenti madrelingua possono poi correggere, seguendo essenzialmente lo stesso modello che ha funzionato bene per le edizioni più attive di Wikipedia.

Google Translate, ad esempio, afferma che la parola fulfulde per gennaio significa giugno, mentre ChatGPT dice che significa agosto o settembre. I programmi suggeriscono anche che la parola fulfulde per “raccolto” significa “febbre” o “benessere”, tra le altre possibilità.  

Ma una volta che vengono prodotte pagine piene di errori in lingue minori, di solito non c’è un esercito di persone competenti che parlano quelle lingue pronte a migliorarle. Ci sono pochi lettori di queste edizioni e talvolta non c’è nemmeno un editore regolare.

Yuet Man Lee, un insegnante canadese ventenne, afferma di aver utilizzato una combinazione di Google Translate e ChatGPT per tradurre una manciata di articoli che aveva scritto per la Wikipedia inglese in Inuktitut, pensando che sarebbe stato bello dare una mano e aiutare una comunità Wikipedia più piccola. Dice di aver aggiunto una nota a uno di essi specificando che si trattava solo di una traduzione approssimativa. “Non pensavo che qualcuno avrebbe notato [l’articolo]”, spiega. “Se pubblichi qualcosa sulle Wikipedie più piccole, il più delle volte nessuno lo nota”.

Ma allo stesso tempo, dice, pensava comunque che “qualcuno avrebbe potuto vederlo e correggerlo”, aggiungendo che si era chiesto se la traduzione in inuktitut generata dai sistemi di intelligenza artificiale fosse grammaticalmente corretta. Nessuno ha toccato l’articolo da quando lo ha creato.

Lee, che insegna scienze sociali a Vancouver e ha iniziato a modificare le voci della Wikipedia in inglese dieci anni fa, afferma che gli utenti che hanno familiarità con le Wikipedie più attive possono cadere vittime di questa mentalità, che lui definisce “arroganza della Wikipedia più grande”: quando cercano di contribuire alle edizioni più piccole di Wikipedia, danno per scontato che altri correggeranno i loro errori. A volte può funzionare. Lee afferma di aver già contribuito con diversi articoli alla Wikipedia in lingua tatara, parlata da diversi milioni di persone principalmente in Russia, e che almeno uno di questi è stato alla fine corretto. Ma la Wikipedia in lingua inuktitut è, al confronto, una “terra desolata”.

Sottolinea che le sue intenzioni erano buone: voleva aggiungere altri articoli a una Wikipedia indigena canadese. “Ora penso che forse sia stata una cattiva idea. Non avevo considerato che potesse contribuire a un circolo vizioso”, afferma. “Si trattava di cercare di pubblicare dei contenuti, per curiosità e per divertimento, senza pensare adeguatamente alle conseguenze”.

 “Assolutamente, completamente senza futuro”

Wikipedia è un progetto guidato da un ottimismo ingenuo. La modifica può essere un compito ingrato, che comporta settimane trascorse a litigare con persone anonime e pseudonime, ma i devoti dedicano ore di lavoro non retribuito per il loro impegno verso una causa superiore. È questo impegno che spinge molti dei redattori regolari di lingue minori con cui ho parlato. Tutti temevano cosa sarebbe successo se la spazzatura avesse continuato ad apparire sulle loro pagine.

Abdulkadir Abdulkadir, un pianificatore agricolo di 26 anni che mi ha parlato al telefono da una trafficata strada nel nord della Nigeria, ha detto che passa tre ore al giorno a modificare le voci nella sua lingua madre, il fulfulde, una lingua usata principalmente dai pastori e dagli agricoltori del Sahel. “Ma il lavoro è troppo”, ha detto.

Abdulkadir ritiene che sia urgente che la Wikipedia in fulfulde funzioni correttamente. La propone come una delle poche risorse online per gli agricoltori dei villaggi remoti, in grado di offrire informazioni sui semi o sulle colture più adatti ai loro campi in una lingua che possono comprendere. Se si fornisce loro un articolo tradotto automaticamente, mi ha detto Abdulkadir, allora si potrebbe “facilmente danneggiarli”, poiché le informazioni probabilmente non saranno tradotte correttamente in fulfulde.

Google Translate, ad esempio, dice che la parola fulfulde per gennaio significa giugno, mentre ChatGPT dice che è agosto o settembre. I programmi suggeriscono anche che la parola fulfulde per “raccolto” significa “febbre” o “benessere”, tra le altre possibilità.

Abdulkadir ha detto di essere stato recentemente costretto a correggere un articolo sui fagioli dall’occhio, una coltura commerciale fondamentale in gran parte dell’Africa, dopo aver scoperto che era in gran parte illeggibile.

Se qualcuno vuole creare pagine su Wikipedia in fulfulde, ha detto Abdulkadir, queste dovrebbero essere tradotte manualmente. Altrimenti, “chiunque leggerà i tuoi articoli non sarà in grado di acquisire nemmeno le conoscenze di base”, dice a questi wikipediani. Ciononostante, stima che circa il 60% degli articoli siano ancora traduzioni automatiche non corrette. Abdulkadir mi ha detto che, a meno che non ci siano cambiamenti importanti nel modo in cui i sistemi di intelligenza artificiale apprendono e vengono implementati, le prospettive per il fulfulde sembrano cupe. “Sarà terribile, onestamente”, ha detto. “Assolutamente, completamente senza futuro”.

Dall’altra parte del Paese rispetto ad Abdulkadir, Lucy Iwuala contribuisce a Wikipedia in igbo, una lingua parlata da diversi milioni di persone nel sud-est della Nigeria. “Il danno è già stato fatto”, mi ha detto, aprendo i due articoli creati più di recente. Entrambi erano stati tradotti automaticamente tramite Content Translate di Wikipedia e contenevano così tanti errori che, secondo lei, continuare a leggerli le avrebbe fatto venire il mal di testa. “Ci sono alcuni termini che non sono stati nemmeno tradotti. Sono ancora in inglese”, ha sottolineato. Ha riconosciuto il nome utente che aveva creato le pagine come un recidivo. “Questo include persino lettere che non sono utilizzate nella lingua igbo”, ha detto.

Iwuala ha iniziato a contribuire regolarmente a Wikipedia tre anni fa, preoccupata che l’igbo venisse soppiantato dall’inglese. È una preoccupazione comune a molti che sono attivi nelle edizioni più piccole di Wikipedia. “Questa è la mia cultura. Questo è ciò che sono”, mi ha detto. “Questa è l’essenza di tutto: assicurarsi di non essere cancellati”.

Iwuala, che ora lavora come traduttrice professionista tra l’inglese e l’igbo, ha affermato che gli utenti che causano i danni maggiori sono inesperti e vedono le traduzioni AI come un modo per aumentare rapidamente la visibilità della Wikipedia in lingua igbo. Spesso si trova a dover spiegare, durante gli edit-a-thon online che organizza o tramite e-mail a vari editori inclini agli errori, che i risultati possono essere esattamente l’opposto, allontanando gli utenti: “Ti scoraggerai e non vorrai più visitare questo sito. Lo abbandonerai e tornerai alla Wikipedia in inglese”.

Questi timori sono condivisi da Noah Ha‘alilio Solomon, assistente professore di lingua hawaiana all’Università delle Hawaii. Egli riferisce che circa il 35% delle parole presenti in alcune pagine della Wikipedia hawaiana sono incomprensibili. “Se questo è l’hawaiano che esisterà online, allora farà più male che altro”, afferma.

L’hawaiano, che alcuni decenni fa era sull’orlo dell’estinzione, è stato oggetto di uno sforzo di recupero guidato da attivisti e accademici indigeni. Vedere un hawaiano così scadente su una piattaforma così diffusa come Wikipedia è sconcertante per Ha’alilio Solomon.

“È doloroso, perché ci ricorda tutte le volte in cui la nostra cultura e la nostra lingua sono state appropriate”, afferma. “Abbiamo lottato con le unghie e con i denti in una dura battaglia per la rivitalizzazione della lingua. Non è affatto facile, e questo può aggiungere ulteriori ostacoli. La gente penserà che questa sia una rappresentazione accurata della lingua hawaiana”.

Le conseguenze di tutti questi errori di Wikipedia possono diventare rapidamente evidenti. I traduttori AI che hanno senza dubbio assimilato queste pagine nei loro dati di addestramento stanno ora contribuendo alla produzione, ad esempio, di libri generati dall’intelligenza artificiale e pieni di errori, destinati a studenti di lingue diverse come l’inuktitut e il cree, lingue indigene parlate in Canada, e il manx, una piccola lingua celtica parlata sull’isola di Man. Molti di questi libri sono stati messi in vendita su Amazon. “Era semplicemente una totale assurdità”, afferma Richard Compton, linguista dell’Università del Quebec a Montreal, riferendosi a un volume che ha recensito e che pretendeva di essere un frasario introduttivo all’inuktitut.

Anziché rendere le lingue minoritarie più accessibili, l’intelligenza artificiale sta creando un campo minato in continua espansione che gli studenti e i parlanti di quelle lingue devono attraversare. “È uno schiaffo in faccia”, dice Compton. Egli teme che le giovani generazioni in Canada, che sperano di imparare le lingue nelle comunità che hanno combattuto battaglie in salita contro la discriminazione per tramandare il loro patrimonio culturale, possano rivolgersi a strumenti online come ChatGPT o frasari su Amazon e semplicemente peggiorare le cose. “È una frode”, afferma.

Una corsa contro il tempo

Secondo l’UNESCO, ogni due settimane una lingua viene dichiarata estinta. Ma se la Wikimedia Foundation, che gestisce Wikipedia, abbia un obbligo nei confronti delle lingue utilizzate sulla sua piattaforma è una questione aperta. Quando ho parlato con Runa Bhattacharjee, direttore senior della fondazione, mi ha detto che spetta alle singole comunità decidere quali contenuti vogliono che siano presenti sulla loro Wikipedia. “In definitiva, la responsabilità di garantire che non vi siano atti di vandalismo o attività indesiderate, sia attraverso la traduzione automatica che con altri mezzi, spetta alla comunità”, ha affermato. Di solito, ha aggiunto Bhattacharjee, la chiusura di un’edizione viene presa in considerazione solo se viene presentato un reclamo specifico al riguardo.

Ma se non c’è una comunità attiva, come è possibile correggere un’edizione o addirittura presentare un reclamo?

Bhattacharjee ha spiegato che la Wikimedia Foundation vede il proprio ruolo in questi casi come quello di mantenere la piattaforma Wikipedia nel caso in cui qualcuno arrivi a rilanciarla: “È lo spazio che mettiamo a loro disposizione per crescere e svilupparsi. Questo è il nostro ruolo”.

L’inari saami, parlato in un’unica comunità remota nel nord della Finlandia, è un esempio lampante di come le persone possano trarre vantaggio da Wikipedia. Quattro decenni fa questa lingua era destinata all’estinzione: solo quattro bambini la parlavano. I loro genitori hanno creato l’Associazione per la lingua inari saami nel tentativo disperato di mantenerla in vita. Gli sforzi hanno dato i loro frutti. Ora ci sono diverse centinaia di parlanti, scuole che utilizzano l’Inari Saami come lingua di insegnamento e 6.400 articoli di Wikipedia in questa lingua, ciascuno dei quali è stato revisionato da un parlante fluente.

Questo successo evidenzia come Wikipedia possa davvero fornire alle comunità piccole e determinate uno strumento unico per promuovere la conservazione delle loro lingue. “Non ci interessa la quantità. Ci interessa la qualità”, afferma Fabrizio Brecciaroli, membro dell’Associazione per la lingua Inari Saami. “Abbiamo in programma di utilizzare Wikipedia come archivio della lingua scritta. Dobbiamo fornire strumenti che possano essere utilizzati dalle giovani generazioni. È importante che siano in grado di utilizzare l’inari saami in formato digitale”.

L’iniziativa ha avuto un tale successo che Wikipedia è stata integrata nel programma scolastico delle scuole in cui si parla l’inari saami, aggiunge Brecciaroli. Egli risponde alle telefonate degli insegnanti che gli chiedono di scrivere semplici pagine su argomenti che vanno dai tornado al folklore saami. Wikipedia ha persino offerto un modo per introdurre nuove parole nell’inari saami. “Dobbiamo inventare continuamente nuove parole”, afferma Brecciaroli. “I giovani ne hanno bisogno per parlare di sport, politica e videogiochi. Se non sono sicuri di come dire qualcosa, ora controllano Wikipedia”.

Wikipedia è un esperimento intellettuale monumentale. Quello che sta succedendo con l’inari saami suggerisce che, con la massima cura, può funzionare anche con le lingue minori. “L’obiettivo finale è garantire la sopravvivenza dell’inari saami”, dice Brecciaroli. “Potrebbe essere un bene che non esista un Google Translate in inari saami”.

Questo può essere vero, anche se i modelli linguistici di grandi dimensioni come ChatGPT possono essere utilizzati per tradurre frasi in lingue che gli strumenti di traduzione automatica più tradizionali non offrono. Brecciaroli mi ha detto che ChatGPT non è eccezionale in Inari Saami, ma che la qualità varia in modo significativo a seconda di ciò che gli si chiede di fare; se gli si pone una domanda in quella lingua, la risposta sarà piena di parole finlandesi e persino di parole inventate. Ma se gli si chiede qualcosa in inglese, finlandese o italiano e poi gli si chiede di rispondere in Inari Saami, funzionerà meglio.

Alla luce di tutto ciò, creare il maggior numero possibile di contenuti online di alta qualità diventa una corsa contro il tempo. “ChatGPT ha solo bisogno di molte parole”, dice Brecciaroli. “Se continuiamo a inserire materiale di qualità, prima o poi otterremo qualcosa. Questa è la speranza”. Si tratta di un’idea sostenuta da diversi linguisti con cui ho parlato: potrebbe essere possibile porre fine al ciclo “garbage in, garbage out” (se immetti spazzatura, ottieni spazzatura). (OpenAI, che gestisce ChatGPT, non ha risposto alla richiesta di commento).

Tuttavia, il problema generale è destinato a crescere sempre di più, poiché molte lingue non sono fortunate come l’inari saami e i loro traduttori AI saranno molto probabilmente addestrati su sempre più materiale AI di scarsa qualità. Wehr, purtroppo, sembra molto meno ottimista sul futuro della sua amata lingua groenlandese.

Da quando ha cancellato gran parte della Wikipedia in lingua groenlandese, ha trascorso anni cercando di reclutare persone che parlassero quella lingua per aiutarlo a farla rivivere. È apparso sui media groenlandesi e ha lanciato appelli sui social media. Ma non ha ottenuto molta risposta; dice che è stato demoralizzante.

“Non c’è nessuno in Groenlandia che sia interessato a questo o che voglia contribuire”, dice. “Non ha assolutamente senso, ed è per questo che dovrebbe essere chiuso”.

Alla fine dello scorso anno, ha avviato una procedura per richiedere al Comitato linguistico di Wikipedia la chiusura dell’edizione in lingua groenlandese. Sono seguiti mesi di accesi dibattiti tra decine di burocrati di Wikipedia; alcuni sembravano sorpresi che un’edizione apparentemente sana potesse essere afflitta da così tanti problemi.

Poi, all’inizio di questo mese, la proposta di Wehr è stata accettata: Wikipedia in groenlandese sarà chiusa e tutti gli articoli rimasti saranno trasferiti nell’Incubatore di Wikipedia, dove vengono testate e create le nuove edizioni linguistiche. Tra i motivi citati dal Comitato linguistico c’è l’uso di strumenti di intelligenza artificiale, che “hanno spesso prodotto assurdità che potrebbero travisare la lingua”.

Tuttavia, potrebbe essere troppo tardi: gli errori in groenlandese sembrano già essere stati incorporati nei traduttori automatici. Se si chiede a Google Translate o ChatGPT di fare qualcosa di semplice come contare fino a 10 in groenlandese corretto, nessuno dei due programmi è in grado di farlo.

Jacob Judah è un giornalista investigativo con sede a Londra.