GPT-3, il programma di OpenAI per imitare il linguaggio umano ha dato il via alla tendenza a modelli sovradimensionati nell’intelligenza artificiale. A quale costo?
di Will Douglas Heaven
Quando OpenAI ha rilasciato GPT-3, nel giugno del 2020, l’apparente comprensione del linguaggio della rete neurale è apparsa sorprendente. In grado di generare frasi convincenti, conversare con gli umani e dotato di funzionalità di completamento automatico, GPT-3 era più grande di qualsiasi altra rete neurale mai costruita.
Nonostante la tendenza del sistema a replicare i pregiudizi insiti nei contenuti online su cui viene addestrato e la quantità enorme di potenza di calcolo necessaria ad allenare un modello così grande, “MIT Technology Review” ha scelto GPT-3 come uno delle tecnologie innovative del 2020, nel bene e nel male.
Ma l’impatto di GPT-3 è diventato ancora più chiaro nel 2021. Quest’anno ha portato a una proliferazione di grandi modelli di intelligenza artificiale costruiti da più aziende tecnologiche e dai migliori laboratori di intelligenza artificiale, molti dei quali hanno superato lo stesso GPT-3 per dimensioni e capacità. Ma fino a che punto si potrà arrivare con le dimensioni e a quale costo?
GPT-3 ha attirato l’attenzione del mondo non solo per quello che poteva fare, ma per come lo ha fatto. Il sorprendente salto di prestazioni, in particolare la capacità di GPT-3 di fornire prestazioni linguistiche su cui non era stato specificamente addestrato, non è derivato da algoritmi migliori (sebbene si basi molto sul Trasformer, un tipo di rete neurale inventata da Google nel 2017), ma dalle dimensioni.
“Pensavamo di aver bisogno di una nuova idea, ma l’ordine di grandezza ha fornito una risposta”, ha affermato Jared Kaplan, ricercatore di OpenAI e uno dei progettisti di GPT-3, in una tavola rotonda a dicembre a NeurIPS, una delle conferenze più importanti sull’intelligenza artificiale. “Continuiamo a vedere l’iperscalabilità dei modelli di intelligenza artificiale che porta a prestazioni migliori, apparentemente senza fine”, ha scritto una coppia di ricercatori Microsoft a ottobre in un post sul blog che annunciava il mastodontico modello Megatron-Turing NLG dell’azienda, costruito in collaborazione con Nvidia.
Cosa significa la grandezza per un modello? La dimensione di un modello, una rete neurale addestrata, è misurata dal numero di parametri che ha. Questi sono i valori nella rete che vengono modificati più e più volte durante l’addestramento e vengono utilizzati per effettuare le previsioni del modello. In parole povere, più parametri ha un modello, più informazioni può assorbire dai suoi dati di addestramento e più accurate saranno le sue previsioni sui nuovi dati.
GPT-3 ha 175 miliardi di parametri, 10 volte di più del suo predecessore, GPT-2. Ma nel settembre del 2021 Jurassic-1, un modello linguistico di grandi dimensioni disponibile in commercio lanciato dalla startup statunitense AI21 Labs, è arrivato a 178 miliardi di parametri. Gopher, un nuovo modello rilasciato da DeepMind a dicembre, ha toccato i 280 miliardi di parametri. Megatron-Turing NLG ha raggiunto i 530 miliardi e i modelli Switch-Transformer e GLaM di Google si sono attestati rispettivamente a uno e 1,2 trilioni di parametri.
La tendenza non si manifesta solo negli Stati Uniti. Quest’anno il colosso tecnologico cinese Huawei ha prodotto un modello linguistico da 200 miliardi di parametri chiamato PanGu. Inspur, un’altra azienda cinese, ha presentato Yuan 1.0, un modello da 245 miliardi di parametri. Baidu e Peng Cheng Laboratory, un istituto di ricerca di Shenzhen, hanno annunciato PCL-BAIDU Wenxin, un modello con 280 miliardi di parametri che Baidu sta già utilizzando in una varietà di applicazioni, tra cui la ricerca su Internet, feed di notizie e altoparlanti intelligenti. E l’Accademia di intelligenza artificiale di Pechino ha ufficializzato Wu Dao 2.0, con 1,75 trilioni di parametri.
A sua volta, la piattaforma online sudcoreana Naver ha annunciato un modello chiamato HyperCLOVA, con 204 miliardi di parametri. Ognuno di questi rappresenta una notevole impresa di ingegneria. Per cominciare, l’addestramento di un modello con oltre 100 miliardi di parametri è un problema combinatorio complesso: centinaia di GPU individuali, l’hardware preferito per l’addestramento di reti neurali profonde, devono essere connesse e sincronizzate e la suddivisione dei dati di addestramento deve essere in blocchi e distribuiti tra loro nell’ordine giusto al momento giusto.
I grandi modelli linguistici sono diventati progetti prestigiosi che mettono in mostra l’abilità tecnica di un’azienda. Tuttavia, pochi di questi nuovi modelli portano avanti la ricerca, al di là delle ripetute affermazioni che l’aumento di scala ottiene buoni risultati.
Indubbiamente alcune innovazioni sono evidenti. Una volta addestrati, Switch-Transformer e GLaM di Google utilizzano una frazione dei loro parametri per fare previsioni, in modo da risparmiare potenza di calcolo. PCL-Baidu Wenxin combina un modello in stile GPT-3 con un grafico della conoscenza, una tecnica utilizzata nell’AI simbolica della vecchia scuola per memorizzare i fatti.
Insieme a Gopher, DeepMind ha rilasciato RETRO, un modello linguistico con solo 7 miliardi di parametri che compete con altri 25 volte più grandi incrociando un database di documenti quando genera testo. Ciò rende RETRO meno costoso da addestrare rispetto ai suoi rivali di dimensioni maggiori.
Eppure, nonostante i risultati impressionanti, i ricercatori non capiscono ancora esattamente perché aumentare il numero di parametri porti a prestazioni migliori. Né hanno una soluzione per il linguaggio tossico e la disinformazione che questi modelli ripropongono. Come il team originale di GPT-3 ha riconosciuto in un documento di presentazione della tecnologia: “I modelli addestrati su Internet hanno pregiudizi su scala Internet”.
DeepMind afferma che il database di RETRO è più facile da filtrare per il linguaggio dannoso rispetto a un modello monolitico a scatola nera, ma non lo ha testato completamente. Ulteriori dati potrebbero venire dal progetto BigScience, un consorzio creato dalla società di intelligenza artificiale Hugging Face, che si affida a circa 500 ricercatori, molti dei quali provenienti da grandi aziende tecnologiche, che mettono a disposizione volontariamente il loro tempo per costruire e studiare un modello linguistico open source.
In un articolo pubblicato all’inizio dell’anno, Timnit Gebru e i suoi colleghi hanno evidenziato una serie di problemi irrisolti con i modelli stile GPT-3: “Ci chiediamo se si è riflettuto a sufficienza sui potenziali rischi associati al loro sviluppo e sulle strategie per mitigare questi rischi”, hanno scritto.
Nonostante le novità, l’AI è ancora nel cono d’ombra di GPT-3. “Tra 10 o 20 anni, i modelli su larga scala saranno la norma”, ha affermato Kaplan durante il panel di NeurIPS. Se è così, è tempo che i ricercatori si concentrino non solo sulle dimensioni di un modello, ma su cosa si intendono farne”.
(rp)