Skip to main content

OpenAI ha prodotto un nuovo modello linguistico in grado di evitare gli errori clamorosi del glorioso GPT3. Ma la strada da fare è ancora lunga

di Will Douglas Heaven

OpenAI ha creato una nuova versione di GPT3, il suo modello linguistico rivoluzionario, che elimina alcuni dei problemi più seri che affliggevano il suo predecessore. Il laboratorio con sede a San Francisco afferma che il modello aggiornato, chiamato InstructGPT, è più efficace nel seguire le istruzioni delle persone che lo utilizzano, il cosiddetto “allineamento” nel gergo dell’AI, e adotta un linguaggio più equilibrato e preciso.

I modelli linguistici di grandi dimensioni come GPT-3 vengono addestrati utilizzando vasti corpi di testi, in gran parte presi da Internet, in cui si trovano di fronte a ogni tipo di contenuto. Questo è un problema per i chatbot e gli strumenti di generazione di testo di oggi. I modelli assorbono il linguaggio tossico di un testo che può essere razzista e misogino o contenere pregiudizi ancora più insidiosi e radicati. 

OpenAI ha reso IntructGPT il modello predefinito per gli utenti della sua API (Application Programming Interface), un servizio che dà accesso a pagamento ai modelli linguistici dell’azienda. GPT-3 sarà ancora disponibile, ma OpenAI sconsiglia di usarlo. “È la prima volta che queste tecniche di allineamento vengono applicate a un prodotto reale“, afferma Jan Leike, che co-dirige il team di allineamento di OpenAI.

I precedenti tentativi di affrontare il problema includevano il filtraggio del linguaggio offensivo del set di formazione, ma in questo modo si possono ridurre le prestazioni dei modelli, soprattutto nei casi in cui i dati di addestramento siano scarsi, come nel caso di testo prodotto da gruppi minoritari. I ricercatori di OpenAI hanno evitato questo problema iniziando con un modello GPT-3 completamente addestrato, a cui aggiungono un altro ciclo di formazione, utilizzando l’apprendimento per rinforzo per insegnare al modello cosa dovrebbe dire e quando, in base alle preferenze degli utenti umani.  

Per addestrare InstructGPT, OpenAI ha assunto 40 persone per valutare le risposte di GPT-3 a una serie di indicazioni del tipo: “Scrivi una storia su una rana saggia chiamata Julius” o “Scrivi un annuncio creativo per il seguente prodotto da pubblicare su Facebook”. Le risposte che hanno giudicato più in linea con l’apparente intenzione di chi ha scritto il prompt hanno ricevuto un punteggio più alto.

Le risposte che contenevano un linguaggio sessualmente colorito o violento, denigravano un gruppo specifico di persone, esprimevano un’opinione e così via, erano segnalate. Questo feedback è stato quindi utilizzato come ricompensa in un algoritmo di apprendimento per rinforzo che ha addestrato InstructGPT a far corrispondere le risposte ai prompt nel senso desiderato dai valutatori. 

OpenAI ha scoperto che gli utenti della sua API preferivano InstructGPT rispetto a GPT-3 più del 70 per cento delle volte. “Non vediamo più errori grammaticali nella produzione linguistica“, afferma Ben Roe, responsabile del prodotto di Yabble, una società di ricerche di mercato che utilizza i modelli di OpenAI per creare estratti in linguaggio naturale dei dati aziendali dei suoi clienti. “C’è anche un chiaro progresso nella capacità dei nuovi modelli di comprendere e seguire le istruzioni”.

I ricercatori hanno anche confrontato versioni di diverse dimensioni di InstructGPT e hanno scoperto che gli utenti preferivano le risposte di un modello InstructGPT con 1,3 miliardi di parametri a quelle di un GPT-3 con 175 miliardi di parametri, anche se il modello era più di 100 volte più piccolo. Ciò significa che l’allineamento potrebbe essere un modo semplice per migliorare i modelli linguistici, anziché semplicemente aumentarne le dimensioni, afferma Leike.

“Questo lavoro compie un passo importante nella giusta direzione”, afferma Douwe Kiela, ricercatore di Hugging Face, una società di intelligenza artificiale che lavora su modelli linguistici open source. A suo parere, il processo di formazione basato sul feedback potrebbe essere ripetuto in molti round, migliorando ulteriormente il modello. Leike afferma che OpenAI potrebbe farlo basandosi sul feedback dei clienti.

InstructGPT commette ancora errori semplici, a volte producendo risposte irrilevanti o senza senso. Se viene fornito un prompt che contiene una falsità, per esempio, la riterrà vera. E poiché è stato addestrato a fare ciò che le persone chiedono, InstructGPT produrrà un linguaggio molto più tossico di GPT-3 se gli viene richiesto di farlo.

Ehud Reiter, che lavora sull’AI per la generazione di testi all’Università di Aberdeen, nel Regno Unito, accoglie con favore qualsiasi tecnica che riduca la quantità di disinformazione prodotta dai modelli linguistici. Ma osserva che per alcune applicazioni, come l’intelligenza artificiale che fornisce consulenza medica, non è accettabile alcuna falsità. 

Reiter si chiede se i modelli linguistici di grandi dimensioni, basati sulla scatola nera delle reti neurali, possano mai garantire la sicurezza degli utenti. Per questo motivo, preferisce un mix di reti neurali e AI simbolica, vale a dire regole hard-coded che vincolano ciò che un modello può e non può dire. Qualunque sarà l’approccio, c’è ancora molto lavoro da fare. “Non siamo nemmeno vicini alla risoluzione di questo problema”, conclude Kiela.

Immagine di: Ms Tech, Envato

(rp)