Skip to main content

Un gruppo di oltre mille ricercatori di intelligenza artificiale ha creato il modello linguistico Bloom, e lo distribuisce gratuitamente per verificarne i limiti

Melissa Heikkila

All’interno del centro di supercalcolo del French National Center for Scientific Research, alla periferia di Parigi, file e file di quelli che sembrano frigoriferi neri ronzano a 100 decibel assordanti. Fanno parte di un supercomputer che ha trascorso 117 giorni a dare vita a un nuovo modello di linguaggio di grandi dimensioni (LLM) chiamato BLOOM che i suoi creatori sperano rappresenti un allontanamento radicale dal modo in cui viene solitamente sviluppata l’AI. 

A differenza di altri modelli linguistici di grandi dimensioni più famosi come GPT-3 di OpenAI e LaMDA di Google, BLOOM (che sta per BigScience Large Open-science Open-access Multilingual Language Model) è progettato per essere il più trasparente possibile, con i ricercatori che condividono i dettagli sui dati utilizzati per la formazione, le sfide affrontate per il suo sviluppo e il modo in cui hanno valutato le sue prestazioni. OpenAI e Google non hanno condiviso il loro codice o reso disponibili i loro modelli al pubblico e i ricercatori esterni hanno pochissima comprensione di come questi modelli vengono addestrati. 

BLOOM è stato creato nell’ultimo anno da oltre 1.000 ricercatori volontari in un progetto chiamato BigScience, che è stato coordinato dalla startup AI Hugging Face utilizzando i finanziamenti del governo francese. È stato lanciato ufficialmente il 12 luglio. I ricercatori sperano che lo sviluppo di un LLM ad accesso aperto che funzioni così come altri modelli leader porterà a cambiamenti duraturi nella cultura dello sviluppo dell’AI e contribuirà a democratizzare l’accesso alla tecnologia d’avanguardia per i ricercatori di tutto il mondo il mondo. 

La facilità di accesso del modello è il suo più grande punto di forza. Ora che è live, chiunque può scaricarlo e armeggiare con esso gratuitamente sul sito web di Hugging Face. Gli utenti possono scegliere da una selezione di lingue e quindi digitare richieste per BLOOM per svolgere attività come scrivere ricette o poesie, tradurre o riassumere testi o scrivere codice di programmazione. Gli sviluppatori di AI possono utilizzare il modello come base per creare le proprie applicazioni. 

Con 176 miliardi di parametri (variabili che determinano come i dati di input vengono trasformati nell’output desiderato) supera i 175 miliardi di GPT-di OpenAI e BigScience afferma che offre livelli di accuratezza e tossicità simili a quelli di altri modelli delle stesse dimensioni. Per lingue come lo spagnolo e l’arabo, BLOOM è il primo modello linguistico di grandi dimensioni di queste dimensioni. 

Ma anche i creatori del modello avvertono che non risolverà i problemi profondamente radicati attorno ai sistemi linguistici di grandi dimensioni, inclusa la mancanza di politiche adeguate sulla governance dei dati e sulla privacy e la tendenza degli algoritmi a vomitare contenuti tossici, come un linguaggio razzista o sessista.

Nessun segreto

I modelli linguistici di grandi dimensioni sono algoritmi di deep learning addestrati su enormi quantità di dati. Sono una delle aree più calde di ricerca dell’AI. Modelli potenti come GPT-3 e LaMDA, che producono testo simile a quello di un essere umano, hanno un enorme potenziale per cambiare il modo in cui elaboriamo le informazioni online. Possono essere usati come chatbot o per cercare informazioni, moderare contenuti online, riassumere libri o generare passaggi di testo completamente nuovi in base ai prompt. Ma allo stesso tempo, ci vuole poco prima che questi modelli inizino a produrre contenuti dannosi.

I modelli sono anche estremamente esclusivi. Hanno infatti bisogno di essere addestrati su enormi quantità di dati, bruciando una costosa potenza di calcolo, che è qualcosa che solo grandi aziende tecnologiche (e per lo più americane) come Google possono permettersi. La maggior parte delle grandi aziende tecnologiche che sviluppano LLM all’avanguardia ne limitano l’uso da parte di estranei e non forniscono informazioni sul funzionamento interno dei loro modelli. La segretezza e l’esclusività sono ciò che i ricercatori che lavorano su BLOOM sperano di cambiare.

Meta ha già compiuto passi avanti rispetto allo status quo: nel maggio 2022 l’azienda ha presentato il suo modello di linguaggio di grandi dimensioni, Open Pretrained Transformer (OPT-175B), insieme al suo codice e a un registro che descrive in dettaglio come il modello è stato addestrato. Ma questo modello è disponibile solo su richiesta e ha una licenza che ne limita l’uso a fini di ricerca. 

Hugging Face fa un ulteriore passo avanti. Quest’anno, gli incontri che descrivono in dettaglio il suo lavoro vengono diffusi online e chiunque può scaricare gratuitamente il modello e utilizzarlo per ricerche o per creare applicazioni commerciali.  

Un grande obiettivo di BigScience è incorporare considerazioni etiche nel modello sin dall’inizio, invece di considerarle come una fase di riflessione successiva. Gli LLM sono addestrati su tonnellate di dati raccolti raschiando Internet. Questo può essere problematico, perché questi set di dati includono molte informazioni personali e spesso riflettono pregiudizi pericolosi. Il gruppo ha sviluppato strutture di governance di set di dati specifici per gli LLM.  

BigScience sta inoltre lanciando una nuova licenza per l’AI responsabile che è qualcosa di simile a un accordo sui termini di servizio. È progettata per fungere da deterrente all’uso di BLOOM in settori ad alto rischio come le forze dell’ordine o l’assistenza sanitaria, o per danneggiare, ingannare, sfruttare o impersonare persone. La licenza è un esperimento di autoregolamentazione degli LLM prima che intervengano le leggi, ma nei fatti non c’è niente che impedisca a qualcuno di abusare di BLOOM.

Il progetto ha seguito delle proprie linee guida etiche fin dall’inizio, che hanno funzionato come principi guida per lo sviluppo del modello, afferma Giada Pistilli di Hugging Face, che ha redatto le linee etiche di BLOOM. Per esempio, ha curato il reclutamento di volontari provenienti da ambienti e luoghi diversi, assicurando che gli estranei possano riprodurre facilmente i risultati del lavoro e favorendone la divulgazione. 

Questa filosofia si traduce in una delle principali differenze tra BLOOM e altri LLM disponibili oggi: il vasto numero di linguaggi umani che il modello può comprendere. Può gestirne 46, tra cui francese, vietnamita, mandarino, indonesiano, catalano, 13 lingue indiane (come l’hindi) e 20 lingue africane. Poco più del 30 per cento dei suoi dati di formazione era in inglese. Il modello comprende anche 13 linguaggi di programmazione.

Questi dati sono molto insoliti nel mondo dei modelli linguistici di grandi dimensioni, dove l’inglese domina. Si tratta di un’altra conseguenza del fatto che gli LLM sono costruiti estraendo dati da Internet: l’inglese è la lingua comune online. Il motivo per cui BLOOM è stato in grado di migliorare questa situazione è che il team ha radunato volontari da tutto il mondo per creare set di dati adeguati in altre lingue, anche non ben rappresentate online. 

Per esempio, Hugging Face ha organizzato workshop con ricercatori africani di intelligenza artificiale per cercare di trovare set di dati di autorità locali o università da utilizzare per formare il modello sulle lingue africane, afferma Chris Emezue, collaboratore di Hugging Face e ricercatore di Masakhane, un’organizzazione che lavora all’elaborazione del linguaggio naturale per le lingue africane.

Includere così tante lingue diverse potrebbe essere di grande aiuto per i ricercatori di intelligenza artificiale nei paesi più poveri, che spesso faticano ad accedere all’elaborazione del linguaggio naturale per i costi troppo alti della potenza di calcolo. BLOOM consente loro di saltare questa fase costosa dello sviluppo e dell’addestramento dei modelli per concentrarsi sulla creazione di applicazioni e sulla messa a punto dei modelli per le attività nelle loro lingue native. 

Maneggiare con cautela

BigScience ha svolto un lavoro “fenomenale” nel costruire una comunità attorno a BLOOM e il suo sistema di coinvolgimento dell’etica e della governance fin dall’inizio è equilibrato, afferma Percy Liang, professore associato di informatica di Stanford specializzato in modelli linguistici di grandi dimensioni. Ma, a suo parere, non porterà a cambiamenti significativi nello sviluppo di LLM. In definitiva, BLOOM è ancora un modello linguistico di grandi dimensioni e presenta ancora tutti i difetti e i rischi associati. 

È probabile che anche BLOOM incorpori imprecisioni e un linguaggio parziale, ma poiché tutto ciò che riguarda il modello è sotto gli occhi di tutti, le persone saranno in grado di valutarne i punti di forza e di debolezza, afferma Margaret Mitchell, ricercatrice di intelligenza artificiale ed etica presso Hugging Face.

Il più grande contributo di BigScience all’AI potrebbe finire per non essere BLOOM in sé, ma i numerosi progetti di ricerca spin-off in cui sono coinvolti i suoi volontari. Per esempio, tali progetti potrebbero rafforzare le credenziali di privacy del modello e trovare modi per utilizzare la tecnologia in diversi campi, come la ricerca biomedica
 
“Un nuovo grande modello linguistico non cambierà il corso della storia”, afferma Teven Le Scao, ricercatore di Hugging Face, “ma avere un buon modello di linguaggio aperto su cui le persone possono effettivamente fare ricerca ha un forte impatto a lungo termine“. Quando si tratta dei potenziali danni degli LLM, “il vaso di Pandora è ormai spalancato”, conclude Le Scao. “L’unica cosa da fare è creare le migliori condizioni possibili affinché i ricercatori possano capire bene l’entità dei rischi”.

Image by PublicDomainPictures from Pixabay

(rp)