Skip to main content
Stephanie Arnett/ MIT Technology Review | Adobe Stock, Pexels

Uno sforzo massiccio guidato da volontari per raccogliere dati di addestramento in più lingue, da persone di più età e sesso, potrebbe contribuire a rendere la prossima generazione di IA vocale più inclusiva e meno sfruttata.

Siamo alla vigilia di un boom dell’intelligenza artificiale vocale, con aziende tecnologiche come Apple e OpenAI che stanno lanciando la prossima generazione di assistenti dotati di intelligenza artificiale. Ma le voci predefinite di questi assistenti sono spesso bianche, americane e britanniche, se siete fortunati, e parlano sicuramente inglese. Rappresentano solo una minima parte dei numerosi dialetti e accenti della lingua inglese, che abbraccia molte regioni e culture. E se siete tra i miliardi di persone che non parlano inglese, siete sfortunati: questi strumenti non suonano altrettanto bene in altre lingue.

Questo perché i dati utilizzati per addestrare questi modelli sono limitati. Nella ricerca sull’IA, la maggior parte dei dati utilizzati per addestrare i modelli viene estratta da Internet in lingua inglese, che riflette la cultura anglo-americana. Ma è in corso un massiccio sforzo di base per cambiare questo status quo e portare più trasparenza e diversità nel suono dell’IA: l’iniziativa Common Voice di Mozilla.

L’insieme di dati che Common Voice ha creato negli ultimi sette anni è una delle risorse più utili per chi vuole costruire un’intelligenza artificiale vocale. Ha registrato un’impennata di download, in parte grazie all’attuale boom dell’IA; di recente ha raggiunto i 5 milioni di download, rispetto ai 38.500 del 2020. Creare questo set di dati non è stato facile, soprattutto perché la raccolta dei dati si basa su un esercito di volontari. Anche il loro numero è aumentato, passando da poco meno di 500.000 nel 2020 a oltre 900.000 nel 2024. Ma regalando i propri dati, sostengono alcuni membri della comunità, Mozilla incoraggia i volontari a svolgere un lavoro gratuito per Big Tech.

Dal 2017, i volontari del progetto Common Voice hanno raccolto un totale di 31.000 ore di dati vocali in circa 180 lingue diverse come il russo, il catalano e il marathi. Se avete usato un servizio che utilizza l’IA audio, è probabile che sia stato addestrato almeno in parte su Common Voice.

La causa di Mozilla è nobile. Poiché l’intelligenza artificiale è sempre più integrata nelle nostre vite e nei nostri modi di comunicare, diventa sempre più importante che gli strumenti con cui interagiamo parlino come noi. La tecnologia potrebbe abbattere le barriere della comunicazione e aiutare a trasmettere informazioni in modo convincente, ad esempio a chi non sa leggere. Invece, un’intensa attenzione all’inglese rischia di radicare un nuovo ordine mondiale coloniale e di cancellare completamente le lingue.

“Sarebbe un vero e proprio autogol se, anziché creare finalmente modelli di traduzione veramente multimodali, multilingue e ad alte prestazioni e creare un mondo più multilingue, finissimo per costringere tutti a operare in inglese o francese”, afferma EM Lewis-Jong, direttore di Common Voice.

Common Voice è open source, il che significa che chiunque può vedere cosa è stato fatto nel set di dati e che gli utenti possono farci quello che vogliono, gratuitamente. Questo tipo di trasparenza è insolito nella governance dei dati di intelligenza artificiale. Secondo una ricerca condotta da un team dell’Università di Washington e delle università Carnegie Mellon e Northwestern, la maggior parte degli insiemi di dati audio di grandi dimensioni non sono disponibili al pubblico e molti sono costituiti da dati raschiati da siti come YouTube.

La maggior parte dei dati linguistici viene raccolta da volontari come Bülent Özden, un ricercatore turco. Dal 2020, non solo dona la sua voce, ma sensibilizza anche il progetto per convincere altre persone a donare. Di recente ha trascorso due mesi a tempo pieno per correggere i dati e controllare gli errori di battitura in turco. Per lui, migliorare i modelli di intelligenza artificiale non è l’unica motivazione per fare questo lavoro.

“Lo faccio per preservare le culture, soprattutto le lingue con poche risorse”, dice Özden. Mi dice che di recente ha iniziato a raccogliere campioni delle lingue più piccole della Turchia, come il circasso e lo zaza.

Tuttavia, scavando nel set di dati, ho notato che la copertura delle lingue e degli accenti è molto disomogenea. Ci sono solo 22 ore di voci finlandesi di 231 persone. In confronto, il set di dati contiene 3.554 ore di inglese di 94.665 parlanti. Alcune lingue, come il coreano e il punjabi, sono ancora meno rappresentate. Pur avendo decine di milioni di parlanti, rappresentano solo un paio di ore di dati registrati.

Questo squilibrio è emerso perché gli sforzi di raccolta dei dati sono iniziati dal basso dalle stesse comunità linguistiche, afferma Lewis-Jong.

“Stiamo cercando di dare alle comunità ciò di cui hanno bisogno per creare i propri set di dati per l’addestramento dell’IA. Ci concentriamo in particolare sulle comunità linguistiche in cui non ci sono dati o in cui le organizzazioni tecnologiche più grandi non sono interessate a creare questi set di dati”, spiega Lewis-Jong. Sperano che con l’aiuto di volontari e di varie sovvenzioni, l’insieme di dati di Common Voice si avvicini a 200 lingue entro la fine dell’anno.

La licenza permissiva di Common Voice fa sì che molte aziende vi facciano affidamento, come ad esempio la startup svedese Mabel AI, che realizza strumenti di traduzione per gli operatori sanitari. Una delle prime lingue utilizzate dall’azienda è stato l’ucraino; ha costruito uno strumento di traduzione per aiutare i rifugiati ucraini a interagire con i servizi sociali svedesi, spiega Karolina Sjöberg, fondatrice e CEO di Mabel AI. Il team si è poi esteso ad altre lingue, come l’arabo e il russo.

Il problema di molti altri dati audio è che si tratta di persone che leggono da libri o testi. Il risultato è molto diverso da come le persone parlano realmente, soprattutto quando sono angosciate o sofferenti, dice Sjöberg. Dato che chiunque può inviare frasi a Common Voice per farle leggere ad alta voce, il set di dati di Mozilla include anche frasi più colloquiali e più naturali.

Non che sia perfettamente rappresentativo. Il team di Mabel AI ha presto scoperto che la maggior parte dei dati vocali nelle lingue di cui aveva bisogno erano donati da uomini più giovani, il che è abbastanza tipico per il set di dati.

“I rifugiati con cui intendevamo utilizzare l’applicazione erano davvero tutto fuorché uomini più giovani”, spiega Sjöberg. “Questo significa che i dati vocali di cui avevamo bisogno non corrispondevano a quelli di cui disponevamo”. Il team ha iniziato a raccogliere i propri dati vocali da donne ucraine e da persone anziane.

A differenza di altri set di dati, Common Voice chiede ai partecipanti di condividere il loro sesso e i dettagli del loro accento. Assicurarsi che i diversi generi siano rappresentati è importante per combattere i pregiudizi nei modelli di intelligenza artificiale, afferma Rebecca Ryakitimbo, una borsista di Common Voice che ha creato il piano d’azione di genere del progetto. Una maggiore diversità porta non solo a una migliore rappresentazione, ma anche a modelli migliori. I sistemi addestrati su dati ristretti e omogenei tendono a produrre risultati stereotipati e dannosi.

“Non vogliamo che un chatbot che porta il nome di una donna risponda a una donna nello stesso modo in cui risponderebbe a un uomo”.

Ryakitimbo ha raccolto dati vocali in kiswahili in Tanzania, Kenya e Repubblica Democratica del Congo. Mi ha detto che voleva raccogliere le voci di un gruppo socio-economicamente diversificato di parlanti kiswahili e ha raggiunto le donne giovani e anziane che vivono nelle aree rurali, che potrebbero non essere sempre alfabetizzate o avere accesso a dispositivi.

Questo tipo di raccolta dati è impegnativo. L’importanza di raccogliere dati vocali sull’intelligenza artificiale può sembrare astratta a molte persone, soprattutto se non hanno familiarità con le tecnologie. Ryakitimbo e i volontari si rivolgevano alle donne in contesti in cui si sentivano sicure, come le presentazioni sull’igiene mestruale, e spiegavano come la tecnologia potesse, ad esempio, aiutare a diffondere informazioni sulle mestruazioni. Per le donne che non sapevano leggere, l’équipe leggeva frasi che avrebbero ripetuto per la registrazione.

Il progetto Common Voice è sostenuto dalla convinzione che le lingue costituiscano una parte molto importante dell’identità. “Pensiamo che non si tratti solo di lingua, ma di trasmettere la cultura e il patrimonio e di fare tesoro del particolare contesto culturale delle persone”, dice Lewis-Jong. “Ci sono molti modi di dire e frasi culturali che non si traducono”, aggiungono.

Common Voice è l’unico set di dati audio in cui l’inglese non domina, afferma Willie Agnew, ricercatore della Carnegie Mellon University che ha studiato i set di dati audio. “Sono molto colpito da quanto bene hanno fatto e da quanto bene hanno fatto a creare questo set di dati che è in realtà piuttosto diversificato”, dice Agnew. “Mi sembra che siano molto più avanti di quasi tutti gli altri progetti che abbiamo esaminato”.

Ho trascorso un po’ di tempo a verificare le registrazioni di altri parlanti finlandesi sulla piattaforma Common Voice. Mentre le loro voci riecheggiavano nel mio studio, mi sono sentito sorprendentemente toccato. Ci siamo riuniti tutti intorno alla stessa causa: rendere i dati dell’IA più inclusivi e assicurarci che la nostra cultura e la nostra lingua siano rappresentate correttamente nella prossima generazione di strumenti di IA.

Ma avevo dei grossi dubbi su cosa sarebbe successo alla mia voce se l’avessi donata. Una volta inserita nel set di dati, non avrei avuto alcun controllo sull’uso che ne sarebbe stato fatto in seguito. Il settore tecnologico non è esattamente noto per dare il giusto credito alle persone, e i dati sono disponibili per l’uso da parte di chiunque.

“Per quanto vogliamo che vada a beneficio delle comunità locali, c’è la possibilità che anche le Big Tech facciano uso degli stessi dati e costruiscano qualcosa che poi venga prodotto a livello commerciale”, dice Ryakitimbo. Sebbene Mozilla non comunichi chi ha scaricato Common Voice, Lewis-Jong mi dice che Meta e Nvidia hanno dichiarato di averlo utilizzato.

L’accessiva apertura a questi dati linguistici rari e faticosamente conquistati non è desiderata da tutti i gruppi di minoranza, afferma Harry H. Jiang, ricercatore della Carnegie Mellon University, che ha fatto parte del team che ha condotto la ricerca sull’audit. Ad esempio, i gruppi indigeni hanno sollevato preoccupazioni.

L'”estrattivismo” è qualcosa su cui Mozilla ha riflettuto molto negli ultimi 18 mesi, dice Lewis-Jong. Nel corso dell’anno il progetto lavorerà con le comunità per sperimentare licenze alternative, tra cui Nwulite Obodo Open Data License, creata dai ricercatori dell’Università di Pretoria per condividere in modo più equo le serie di dati africani. Per esempio, a chi vuole scaricare i dati potrebbe essere chiesto di scrivere una richiesta con i dettagli su come intende utilizzarli, e potrebbe essere consentito di concederli in licenza solo per determinati prodotti o per un periodo di tempo limitato. Agli utenti potrebbe anche essere chiesto di contribuire a progetti comunitari che sostengono la riduzione della povertà, spiega Lewis-Jong.

Lewis-Jong afferma che il progetto pilota è un esercizio di apprendimento per verificare se le persone desiderano dati con licenze alternative e se queste sono sostenibili per le comunità che le gestiscono. La speranza è che possa portare a qualcosa di simile all'”open source 2.0″.

Alla fine ho deciso di donare la mia voce. Ho ricevuto un elenco di frasi da pronunciare, mi sono seduto davanti al computer e ho premuto Record. Un giorno, spero, il mio sforzo aiuterà un’azienda o un ricercatore a costruire un’intelligenza artificiale vocale che suoni meno generica e più simile a me.