In una cittadina della Nuova Zelanda una coppia sta offrendo un modello di AI alternativo a quello offerto dai ricchi centri di profitto della Silicon Valley. Molte comunità locali stanno seguendo l’esempio
Karen Hao
LEGGI LE PUNTATE PRECEDENTI
Inchiesta AI. L’intelligenza artificiale è il nuovo colonialismo
AI/1. Sudafrica, apartheid digitale
AI/2. Venezuela: lavoro senza diritti
AI/3. La solidarietà tra precari vince: l’esempio indonesiano
Nella stanza sul retro di un vecchio edificio grigio nella regione più settentrionale della Nuova Zelanda, uno dei computer più avanzati per l’intelligenza artificiale sta contribuendo a ridefinire il futuro della tecnologia. Te Hiku Media, una stazione radio māori senza scopo di lucro gestita dai compagni di vita Peter-Lucas Jones e Keoni Mahelona, ha acquistato la macchina con uno sconto del 50 per cento per addestrare i propri algoritmi per l’elaborazione del linguaggio naturale. Il sogno della coppia è rivitalizzare la lingua māori, mantenendo il controllo dei dati della loro comunità.
Mahelona, un nativo hawaiano che si è stabilito in Nuova Zelanda dopo essersi innamorato del paese, ridacchia per l’ironia della situazione: una città rurale abbandonata con un’elevata povertà e una numerosa popolazione indigena che ospita un progetto così ambizioso rappresenta una vera svolta radicale rispetto al modo in cui normalmente opera l’industria dell’AI. Nell’ultimo decennio,infatti, i ricercatori di intelligenza artificiale hanno spinto il campo a nuovi limiti all’insegna del “More is more”, vale a dire accumulare più dati per produrre modelli più grandi per produrre risultati migliori.
I risultati sono stati importanti, ma anche i costi. Le aziende hanno inesorabilmente raccolto i dati delle persone per arricchire i profitti, trascurando le minoranze e le comunità emarginate anche se sono le più esposte agli impatti della tecnologia. Nel corso degli anni, un crescente coro di esperti ha sostenuto che questi meccanismi stanno replicando i modelli della storia coloniale. Lo sviluppo globale dell’AI, dicono, sta impoverendo comunità e paesi che non hanno voce in capitolo nel suo sviluppo, le stesse comunità e paesi già sfruttati dagli ex imperi coloniali.
Ciò è stato particolarmente evidente per l’intelligenza artificiale e il linguaggio. “More is more” ha prodotto modelli linguistici di grandi dimensioni con potenti funzionalità di completamento automatico e analisi del testo ora utilizzate nei servizi quotidiani come ricerca, e-mail e social media. Ma questi modelli, costruiti saccheggiando Internet, stanno anche accelerando la perdita dei linguaggi locali, come già accadeva con le politiche di colonizzazione e assimilazione.
Solo le lingue più comuni hanno abbastanza parlanti e un potenziale di profitto sufficiente per motivare le Big Tech a raccogliere i dati necessari per supportarli. Affidarsi a tali servizi nel lavoro e nella vita quotidiana costringe quindi alcune comunità a parlare le lingue dominanti invece della propria. “I dati sono l’ultima frontiera della colonizzazione”, afferma Mahelona.
Rivolgendosi all’intelligenza artificiale per aiutare a far rivivere te reo, la lingua māori, Mahelona e Jones hanno voluto fare le cose in modo diverso. Per sviluppare i loro strumenti di intelligenza artificiale linguistica, hanno creato meccanismi per raccogliere, gestire e proteggere il flusso di dati māori in modo che non venissero utilizzati senza il consenso della comunità, o peggio, in modi che potessero danneggiare la popolazione locale.
Ora, poiché molti nella Silicon Valley si interrogano sulla direzione dello sviluppo dell’AI oggi, l’approccio del māori Jones e di Mahelona potrebbe indicare la strada verso una nuova forma di intelligenza artificiale, che renda le persone emarginate partecipi di un futuro condiviso.
La colonizzazione travolge il te reo māori
Dopo che nel 1840 Aotearoa , il nome māori della Nuova Zelanda, divenne una colonia britannica l’inglese prese gradualmente il sopravvento come lingua franca dell’economia locale. Nel 1867, il Native Schools Act lo impose come unica lingua in cui si poteva insegnare ai bambini māori, come parte di una più ampia politica di assimilazione. Le scuole iniziarono a intimidire e persino a picchiare fisicamente gli studenti māori che tentavano di parlare te reo.
Negli anni 1970, allarmati da questo rapido declino, i leader e gli attivisti della comunità māori hanno combattuto per invertire la tendenza. Hanno creato scuole di immersione linguistica per l’infanzia e programmi di apprendimento per adulti. Hanno marciato per le strade per chiedere che il te reo avesse lo stesso status dell’inglese
Nei decenni successivi, l’urbanizzazione disgregò le comunità māori, indebolendo i centri di cultura e conservazione della lingua. Molti māori scelsero di lasciare il paese alla ricerca di migliori opportunità economiche. Nel giro di una generazione, la percentuale di parlanti te reo è crollata dal 90 al 12 per cento della popolazione māori.
Nel 1987, 120 anni dopo aver sostenuto attivamente la sua cancellazione, il governo ha finalmente approvato il Language Act, dichiarando il te reo una lingua ufficiale. Tre anni dopo, ha iniziato a finanziare la creazione di stazioni radio iwi, o tribali, come Te Hiku Media, per trasmettere pubblicamente in te reo per aumentare l’accessibilità della lingua. Molti māori con cui parlo oggi si identificano in parte in base al fatto che i loro genitori o nonni parlassero o meno te reo. È considerato un privilegio essere cresciuto in un ambiente con accesso alla trasmissione linguistica intergenerazionale.
Si tratta del gold standard per la conservazione della lingua: l’apprendimento attraverso l’esposizione quotidiana da bambino. Imparare da adolescente o da adulto in un ambiente accademico oltre a essere più difficile, è anche deprivante. Un libro di testo spesso insegna solo una versione singola, o “standard”, di te reo quando ogni iwi, o tribù, ha accenti unici, espressioni idiomatiche e storie regionali incorporate.
La lingua, in altre parole, è più di un semplice strumento di comunicazione. Codifica una cultura che viene trasmessa da genitore a figlio, da figlio a nipote, e si evolve attraverso coloro che la parlano e ne abitano il significato. Influenza e viene influenzata, modellando relazioni, visioni del mondo e identità. “È il modo in cui pensiamo e abbiamo rapporti”, afferma Michael Running Wolf, un altro esperto di tecnologia indigeno che sta usando l’AI per far rivivere un linguaggio in rapida scomparsa.
Conservare una lingua è quindi preservare una storia culturale. Ma soprattutto nell’era digitale, ci vuole una vigilanza costante per strappare una lingua minoritaria dalla sua traiettoria discendente. Ogni nuovo spazio di comunicazione che non lo supporta costringe i parlanti a scegliere tra l’utilizzo di una lingua dominante e la rinuncia alle opportunità di esprimersi in forme di cultura più ampie.
“Se queste nuove tecnologie ‘parlano’ solo lingue occidentali, è inevitabile essere esclusi dall’economia digitale”, afferma Running Wolf. Con l’avvento dell’intelligenza artificiale, la rivitalizzazione del linguaggio è ora a un bivio. La tecnologia può codificare ulteriormente la supremazia delle lingue dominanti, oppure può aiutare le lingue minoritarie a reclamare gli spazi digitali. Questa è l’opportunità che Jones e Mahelona hanno colto.
L’incontro di Jones e Mahelona
Nel 2012, Jones è diventato CEO di Te Hiku Media, un’azienda della sua città natale Kaitaia. A causa del suo isolamento, la regione rimane una delle più povere economicamente di Aotearoa, ma allo stesso modo la sua popolazione māori è tra le più protette del paese. Nei suoi oltre 20 anni di trasmissioni, Te Hiku ha accumulato un ricco archivio di materiali audio te reo, tra cui gemme come una registrazione della nonna di Jones, Raiha Moeroa, nata alla fine del XIX secolo, il cui te reo è rimasto in gran parte incontaminato dall’influenza coloniale.
Jones ha visto l’opportunità di digitalizzare l’archivio e creare un equivalente più moderno della trasmissione linguistica intergenerazionale. La maggior parte dei māori non vive più con i propri iwi e non può fare affidamento sui parenti vicini per l’ esposizione quotidiana al te reo. Con una biblioteca digitale, tuttavia, potrebbero ascoltare le registrazioni te reo degli anziani scomparsi quando e dove vogliono.
Le tribù māori locali gli hanno concesso il permesso di procedere, ma Jones aveva bisogno di un posto dove ospitare i materiali online. Né a lui né a Mahelona piaceva l’idea di caricarli su Facebook o YouTube, dando in tal modo ai giganti della tecnologia la licenza di fare ciò che avrebbero voluto con i dati preziosi. “I nostri dati sarebbero stati utilizzati dalle stesse persone che ci hanno privati di quel linguaggio per rivendercelo come servizio”, dice Jones. “È come quando ti prendono la terra e poi te la rivendono“, aggiunge Mahelona.
(Pochi anni dopo, le aziende avrebbero effettivamente iniziato a lavorare con i parlanti māori per acquisire tali dati. Duolingo, per esempio, ha cercato di costruire strumenti per l’apprendimento delle lingue che potessero essere poi commercializzati presso la comunità māori).
L’unica alternativa era che Te Hiku costruisse la propria piattaforma di hosting digitale. Con il suo background ingegneristico, Mahelona ha accettato di guidare il progetto e si è unito come CTO. La piattaforma digitale è diventata il primo passo importante di Te Hiku per stabilire la sovranità dei dati, una strategia in cui le comunità cercano di acquisire il controllo sul proprio futuro. Per i māori, il desiderio di tale autonomia è radicato nella storia, afferma Tahu Kukutai, cofondatore della rete di sovranità dei dati māori. Durante i primi censimenti coloniali, dopo una serie di guerre devastanti in cui uccisero migliaia di māori e confiscarono le loro terre, gli inglesi raccolsero informazioni sulle tribù per definire le politiche di assimilazione del governo.
La sovranità dei dati è quindi l’ultimo esempio di resistenza indigena: contro i colonizzatori, contro lo stato-nazione e ora contro le grandi aziende tecnologiche. “La nomenclatura potrebbe essere nuova, il contesto potrebbe essere nuovo, ma si basa su una storia molto antica”, spiega Kukutai.
Il nuovo progetto
Nel 2016, Jones ha deciso di intervistare madrelingua te reo vicini ai 90 anni prima che la loro lingua e le loro conoscenze andassero perse per le generazioni future. Voleva creare uno strumento che mostrasse una trascrizione accanto a ogni intervista. Ma poche persone avevano abbastanza padronanza della lingua per trascrivere manualmente l’audio. Ispirato da assistenti vocali come Siri, Mahelona ha iniziato a studiare l’elaborazione del linguaggio naturale. “Insegnare al computer a parlare māori è diventato un passaggio prioritario”, afferma Jones.
Ma Te Hiku ha dovuto affrontare il classico problema della gallina e l’uovo. Per costruire un modello di riconoscimento vocale te reo, era necessaria un’abbondanza di materiale audio trascritto. Per farlo, era necessario un gran numero di parlanti. Così Jones e Mahelona, insieme a Suzanne Duncan, COO di Te Hiku, hanno escogitato una soluzione intelligente: anziché trascrivere l’audio esistente, avrebbero chiesto alle persone di registrare la lettura di una serie di frasi progettate per catturare l’intera gamma di suoni nella lingua. Il set di dati risultante avrebbe permesso all’algoritmo di imparare a riconoscere le sillabe te reo nell’audio.
Allora, Jones, Mahelona e Duncan hanno contattato i diversi gruppi della comunità māori che sono riusciti a trovare, comprese le tradizionali compagnie di danza kapa haka e le squadre di canoa waka ama, e hanno offerto un premio di 5.000 dollari per chi avesse inviato il maggior numero di registrazioni. La risposta è stata sopra le aspettative. Un membro della comunità māori, Te Mihinga Komene, educatore e sostenitore dell’uso delle tecnologie digitali per rivitalizzare il te reo, ha registrato 4.000 frasi da solo.
Il denaro non è stato l’unica motivazione. Le persone si sono fidate. In 10 giorni, Te Hiku ha accumulato 200.000 registrazioni fatte da circa 2.500 persone, un livello di coinvolgimento mai visto tra i ricercatori nella comunità dell’AI. “Nessuno avrebbe potuto farlo tranne un’organizzazione māori”, afferma Caleb Moses, un data scientist māori che ha aderito al progetto dopo esserne venuto a conoscenza sui social media.
La quantità di dati era ancora limitata, comunque, rispetto alle migliaia di ore normalmente utilizzate per addestrare i modelli in lingua inglese, ma è stata sufficiente per iniziare. Utilizzando i dati per avviare un modello open source esistente dalla Mozilla Foundation, Te Hiku ha creato il suo primo modello di riconoscimento vocale te reo con una precisione dell’86 per cento.
A partire da questo, Mahelona, Moses e un team appena formato hanno creato un secondo algoritmo per codificare automaticamente frasi te reo complesse e un terzo per fornire feedback in tempo reale agli studenti sull’accuratezza della loro pronuncia te reo. Il team ha anche sperimentato la sintesi vocale per creare l’ equivalente te reo di Siri, anche se con risultati discutibili.
Te Hiku ha anche stabilito nuovi protocolli di sovranità dei dati. I data scientist māori come Moses sono ancora pochi e rari, ma coloro che si uniscono dall’esterno della comunità non possono semplicemente utilizzare i dati a loro piacimento. “Se vogliono provare qualcosa, ce lo chiedono e abbiamo un quadro decisionale basato sui nostri valori e sui nostri principi”, afferma Jones.
Non è un percorso facile. La cultura open source e a ruota libera della scienza dei dati è spesso antitetica alla pratica della sovranità dei dati. Ci sono state volte in cui Te Hiku ha interrotto i rapporti con i data scientist perché “vogliono solo accedere ai nostri dati”, afferma Jones. Ora cerca di acquisire più data scientist māori attraverso programmi di tirocinio e posizioni junior.
Te Hiku ha reso disponibili la maggior parte dei suoi strumenti come API attraverso la sua nuova piattaforma di linguaggio digitale, Papa Reo. Sta anche lavorando con organizzazioni guidate da māori come l’azienda educativa Afed Limited, che sta creando un’app per aiutare gli studenti di te reo a esercitarsi nella pronuncia. “È davvero un punto di svolta”, afferma Cam Swaison-Whaanga, il fondatore di Afed, impegnato anche ad apprendere il te reo.
Te Hiku ha iniziato a lavorare anche con popolazioni indigene più ristrette. Nella regione del Pacifico, molti condividono gli stessi antenati polinesiani dei māori e le loro lingue hanno radici comuni. Utilizzando i dati te reo come base, un ricercatore delle Isole Cook è stato in grado di addestrare un modello linguistico locale a raggiungere una precisione di circa il 70 per cento utilizzando solo decine di ore di dati.
“Non si tratta più solo di insegnare ai computer a parlare te reo māori “, afferma Mahelona. Si tratta di costruire una base linguistica per le lingue del Pacifico. Stiamo tutti lottando per mantenere in vita le nostre lingue”. Ma Jones e Mahelona sanno che arriverà il momento in cui dovranno lavorare con altre comunità e organizzazioni indigene. Se vogliono che te reo sia davvero onnipresente, al punto da avere assistenti vocali te reo su iPhone e Android, dovranno collaborare con grandi aziende tecnologiche.
Te Hiku ha creato una licenza dati che esplicita le regole di base per future collaborazioni basate sul principio māori di kaitiakitanga, o tutela. Concederà l’accesso ai dati solo alle organizzazioni che accettano di rispettare i valori māori, rimanere entro i limiti del consenso e trasmettere tutti i benefici derivati dal loro utilizzo al popolo māori. La licenza deve ancora essere utilizzata da un’organizzazione diversa da Te Hiku e rimangono dubbi sulla sua applicabilità.
Ma l’idea ha già ispirato altri ricercatori di intelligenza artificiale, come Kathleen Siminyu del progetto Common Voice di Mozilla, che raccoglie donazioni vocali per creare set di dati pubblici per il riconoscimento vocale in diverse lingue. In questo momento questi set di dati possono essere scaricati per qualsiasi scopo. Ma l’anno scorso, Mozilla ha iniziato a esplorare una licenza più simile a quella di Te Hiku che avrebbe dato un maggiore controllo alle comunità linguistiche che scelgono di donare i propri dati.
“Sarebbe fantastico”, sostiene, “se potessimo dire alle persone che parte del contributo a un set di dati ti porta ad avere voce in capitolo su come viene utilizzato il set di dati”. Margaret Mitchell, l’ex co-responsabile del team di AI etica di Google che conduce ricerche sulla governance dei dati e sulle pratiche di proprietà, è d’accordo. “Questo è esattamente il tipo di licenza che vorremmo sviluppare per tutti i diversi tipi di tecnologia”, dice.
La “fortuna” di Te Hiku
Te reo può trarre vantaggio dalle tecnologie di intelligenza artificiale incentrate sull’inglese perché ha abbastanza somiglianze con questa lingua in caratteristiche chiave come l’alfabeto, i suoni e la costruzione delle parole. Come spiega Jason Edward Lewis, un tecnologo digitale e artista che co-organizza l’Indigenous AI Network, i māori sono una comunità indigena abbastanza grande, in grado di accumulare dati linguistici sufficienti e trovare data scientist come Moses per aiutare a trasformare la loro visione in realtà.
Allo stesso tempo, dice, Te Hiku è stata una potente dimostrazione che l’AI può essere costruita al di fuori dei ricchi centri di profitto della Silicon Valley, da e per le persone che dovrebbe servire. Già ci sono degli adepti. Michael Running Wolf e sua moglie, Caroline, anche lei una tecnologa indigena, stanno lavorando per un sistema di riconoscimento vocale per i Makah, un popolo indigeno della costa nord-occidentale del Pacifico, la cui lingua ha solo una dozzina di parlanti rimanenti.
Il compito è arduo: la lingua makah è polisintetica, il che significa che una singola parola, composta da più elementi costitutivi come prefissi e suffissi, può esprimere un’intera frase inglese. Le tecniche di elaborazione del linguaggio naturale esistenti potrebbero non essere applicabili. Prima del successo di Te Hiku, “non abbiamo nemmeno preso in considerazione l’idea di provarci”, dice Caroline. “Ma quando abbiamo sentito l’incredibile lavoro che stanno facendo, nella nostra testa ci siamo ripetuti: è possibile”.
Siminyu di Mozilla afferma che il lavoro di Te Hiku è un esempio anche per il resto della comunità di intelligenza artificiale. Nel modo in cui l’industria opera oggi, è facile che gli individui e le comunità siano privati dei loro diritti; il valore sembra provenire non dalle persone che forniscono i loro dati, ma da coloro che li sottraggono. In questo modo, quindi, l’elaborazione del linguaggio naturale “è un bel passaggio per iniziare a capire cosa significa la proprietà collettiva”, aggiunge. “Perché indipendentemente da quanto siano ampiamente parlate, le lingue appartengono al popolo”.
Immagine: Pixabay
(rp)