E questo è un problema. Risolverlo è uno dei più grandi enigmi scientifici del nostro tempo e un passo cruciale verso il controllo di modelli futuri più potenti.
Due anni fa, Yuri Burda e Harri Edwards, ricercatori dell’azienda OpenAI di San Francisco, stavano cercando di capire cosa ci volesse per far sì che un modello linguistico facesse aritmetica di base. Volevano sapere quanti esempi di somma di due numeri doveva vedere il modello prima di essere in grado di sommare due numeri qualsiasi. All’inizio le cose non sono andate troppo bene. I modelli memorizzavano le somme che vedevano, ma non riuscivano a risolverne di nuove.
Per caso, Burda e Edwards hanno lasciato alcuni dei loro esperimenti in funzione molto più a lungo del previsto: giorni anziché ore. Ai modelli sono state mostrate le somme di esempio più e più volte, ben oltre il punto in cui i ricercatori avrebbero altrimenti rinunciato. Ma quando alla fine i due sono tornati, hanno scoperto con sorpresa che gli esperimenti avevano funzionato. Avevano addestrato un modello linguistico a sommare due numeri, solo che ci era voluto molto più tempo di quanto si pensasse.
Incuriositi da ciò che stava accadendo, Burda e Edwards si sono uniti ai colleghi per studiare il fenomeno. Hanno scoperto che, in alcuni casi, i modelli potevano apparentemente non apprendere un compito e poi, all’improvviso, capirlo, come se si fosse accesa una lampadina. Non era così che doveva funzionare l’apprendimento profondo. Hanno chiamato questo comportamento grokking.
“È davvero interessante”, afferma Hattie Zhou, ricercatore di IA presso l’Università di Montreal e Apple Machine Learning Research, che non ha partecipato al lavoro. “Possiamo mai essere sicuri che i modelli abbiano smesso di imparare? Forse perché non li abbiamo allenati abbastanza a lungo”.
Questo strano comportamento ha catturato l’immaginazione della comunità dei ricercatori. “Molte persone hanno delle opinioni”, dice Lauro Langosco dell’Università di Cambridge, Regno Unito. “Ma non credo che ci sia un consenso su cosa stia accadendo esattamente”.
Il grokking è solo uno dei tanti strani fenomeni che fanno grattare la testa ai ricercatori di intelligenza artificiale. I modelli più grandi, e in particolare i modelli linguistici di grandi dimensioni, sembrano comportarsi in modi che, secondo i manuali di matematica, non dovrebbero. Ciò mette in evidenza un fatto notevole sull’apprendimento profondo, la tecnologia fondamentale che sta alla base dell’odierno boom dell’IA: nonostante il suo successo inarrestabile, nessuno sa esattamente come – o perché – funzioni.
“Ovviamente non siamo del tutto ignoranti”, afferma Mikhail Belkin, informatico dell’Università della California di San Diego. “Ma la nostra analisi teorica è molto lontana da ciò che questi modelli possono fare. Ad esempio, perché possono imparare il linguaggio? Penso che questo sia molto misterioso”.
I modelli più grandi sono ora così complessi che i ricercatori li studiano come se fossero strani fenomeni naturali, conducendo esperimenti e cercando di spiegarne i risultati. Molte di queste osservazioni sono in contrasto con la statistica classica, che aveva fornito la migliore serie di spiegazioni sul comportamento dei modelli predittivi.
E allora, direte voi. Nelle ultime settimane, Google DeepMind ha introdotto i suoi modelli generativi nella maggior parte delle sue applicazioni consumer. OpenAI ha stupito con Sora, il suo nuovo modello di text-to-video. E le aziende di tutto il mondo si stanno affrettando a cooptare l’IA per le loro esigenze. La tecnologia funziona: non è sufficiente?
Ma capire perché il deep learning funziona così bene non è solo un intrigante rompicapo scientifico. Potrebbe anche essere la chiave per sbloccare la prossima generazione della tecnologia, oltre che per gestire i suoi formidabili rischi.
“Sono tempi entusiasmanti”, afferma Boaz Barak, informatico dell’Università di Harvard, distaccato per un anno presso il team di superallineamento di OpenAI. “Molti addetti ai lavori spesso la paragonano alla fisica dell’inizio del XX secolo. Abbiamo molti risultati sperimentali che non comprendiamo completamente, e spesso quando fai un esperimento ti sorprende”.
Vecchio codice, nuovi trucchi
La maggior parte delle sorprese riguarda il modo in cui i modelli possono imparare a fare cose che non sono state dimostrate. Conosciuta come generalizzazione, questa è una delle idee fondamentali dell’apprendimento automatico e il suo più grande rompicapo. I modelli imparano a svolgere un compito – individuare volti, tradurre frasi, evitare pedoni – allenandosi con un insieme specifico di esempi. Tuttavia, possono generalizzare, imparando a svolgere quel compito con esempi che non hanno mai visto prima. In qualche modo, i modelli non si limitano a memorizzare schemi già visti, ma elaborano regole che consentono loro di applicare tali schemi a nuovi casi. E a volte, come nel caso del grokking, la generalizzazione avviene quando non ce la aspettiamo.
In particolare, i modelli linguistici di grandi dimensioni, come GPT-4 di OpenAI e Gemini di Google DeepMind, hanno una sorprendente capacità di generalizzazione. “La magia non sta nel fatto che il modello possa imparare problemi matematici in inglese e poi generalizzare a nuovi problemi matematici in inglese”, dice Barak, “ma che il modello possa imparare problemi matematici in inglese, poi vedere un po’ di letteratura francese e da lì generalizzare alla risoluzione di problemi matematici in francese. È qualcosa che va al di là di ciò che può dire la statistica”.
Quando Zhou ha iniziato a studiare l’intelligenza artificiale qualche anno fa, è rimasta colpita dal modo in cui i suoi insegnanti si concentravano sul come ma non sul perché. “Era come dire: ecco come si addestrano questi modelli e poi ecco il risultato”, dice. “Ma non era chiaro perché questo processo porta a modelli che sono in grado di fare queste cose straordinarie”. Voleva saperne di più, ma le è stato detto che non c’erano risposte valide: “Il mio presupposto era che gli scienziati sapessero quello che facevano. Che avessero le teorie e poi costruissero i modelli. Non era affatto così”.
I rapidi progressi del deep learning negli ultimi 10 anni sono stati ottenuti più per tentativi ed errori che per comprensione. I ricercatori hanno copiato ciò che funzionava per gli altri e hanno aggiunto le proprie innovazioni. Oggi esistono molti ingredienti diversi che possono essere aggiunti ai modelli e un ricettario sempre più ricco di ricette per il loro utilizzo. “La gente prova questa cosa, quella cosa, tutti questi trucchi”, dice Belkin. “Alcuni sono importanti. Altri probabilmente non lo sono”.
“Funziona, il che è incredibile. Siamo sbalorditi da quanto siano potenti queste cose”, dice. Eppure, nonostante il successo, le ricette sono più alchimia che chimica: “Abbiamo capito alcuni incantesimi a mezzanotte dopo aver mescolato alcuni ingredienti”, dice.
Overfitting
Il problema è che l’intelligenza artificiale nell’era dei modelli linguistici di grandi dimensioni sembra sfidare le statistiche dei libri di testo. I modelli più potenti oggi sono enormi, con fino a un trilione di parametri (i valori di un modello che vengono regolati durante l’addestramento). Ma la statistica dice che quando i modelli diventano più grandi, dovrebbero prima migliorare le prestazioni e poi peggiorare. Ciò è dovuto a un fenomeno chiamato overfitting.
Quando un modello viene addestrato su una serie di dati, cerca di adattarli a un modello. Immaginate un gruppo di punti di dati tracciati su un grafico. Un modello che si adatta ai dati può essere rappresentato su quel grafico come una linea che attraversa i punti. Il processo di addestramento di un modello può essere pensato come la ricerca di una linea che si adatti ai dati di addestramento (i punti già presenti sul grafico) ma anche ai nuovi dati (i nuovi punti).
Una linea retta è un modello, ma probabilmente non sarà troppo accurata, mancando alcuni punti. Una linea ondulata che collega ogni punto otterrà il massimo dei voti sui dati di addestramento, ma non generalizzerà. Quando ciò accade, si dice che un modello si adatta troppo ai dati.
Secondo la statistica classica, più un modello diventa grande, più è incline all’overfitting. Questo perché, con un maggior numero di parametri con cui giocare, è più facile per un modello trovare delle linee sinuose che colleghino ogni punto. Questo suggerisce che c’è un punto di equilibrio tra l’underfitting e l’overfitting che un modello deve trovare se vuole generalizzare. Ma questo non è ciò che vediamo con i grandi modelli. L’esempio più noto di questo fenomeno è quello della doppia discesa.
Le prestazioni di un modello sono spesso rappresentate in termini di numero di errori commessi: quando le prestazioni aumentano, il tasso di errore diminuisce (o scende). Per decenni si è creduto che il tasso di errore diminuisse e poi aumentasse con l’aumentare delle dimensioni dei modelli: si immagina una curva a forma di U con il punto di massima generalizzazione nel punto più basso. Ma nel 2018 Belkin e i suoi colleghi hanno scoperto che quando alcuni modelli diventavano più grandi, il loro tasso di errore scendeva, poi saliva e poi scendeva di nuovo (una doppia discesa, o curva a W). In altre parole, i modelli di grandi dimensioni superavano in qualche modo il punto di debolezza e superavano il problema dell’overfitting, migliorando ulteriormente con l’aumentare delle dimensioni.
Un anno dopo, Barak è stato coautore di un documento che dimostra che il fenomeno della doppia discesa è più comune di quanto si pensasse. Si verifica non solo quando i modelli diventano più grandi, ma anche nei modelli con grandi quantità di dati di addestramento o in quelli addestrati più a lungo. Questo comportamento, definito benign overfitting, non è ancora del tutto compreso. Solleva questioni fondamentali su come i modelli dovrebbero essere addestrati per ottenere il massimo da essi.
I ricercatori hanno abbozzato versioni di ciò che pensano stia accadendo. Belkin ritiene che sia in gioco una sorta di effetto rasoio di Occam: il modello più semplice che si adatta ai dati – la curva più morbida tra i punti – è spesso quello che si generalizza meglio. Il motivo per cui i modelli più grandi continuano a migliorare più a lungo di quanto sembra dovrebbe essere, potrebbe essere che i modelli più grandi hanno più probabilità di trovare quella curva così semplice rispetto a quelli più piccoli: più parametri significa più curve possibili da provare dopo aver abbandonato la più ondulata.
“La nostra teoria sembrava spiegare le basi del funzionamento”, dice Belkin. “Poi la gente ha creato modelli in grado di parlare 100 lingue e ci siamo detti: ok, non capiamo proprio niente”. Ride: “Si è scoperto che non stavamo nemmeno scalfendo la superficie”.
Per Belkin, i modelli linguistici di grandi dimensioni sono un mistero completamente nuovo. Questi modelli si basano sui trasformatori, un tipo di rete neurale che è in grado di elaborare sequenze di dati, come le parole nelle frasi.
I trasformatori sono molto complessi, dice Belkin. Ma ritiene che in fondo facciano più o meno la stessa cosa di un costrutto statistico molto più conosciuto, chiamato catena di Markov, che predice l’elemento successivo di una sequenza in base a quello che l’ha preceduto. Ma questo non basta a spiegare tutto ciò che i modelli linguistici di grandi dimensioni possono fare. “Si tratta di qualcosa che, fino a poco tempo fa, pensavamo non dovesse funzionare”, dice Belkin. “Ciò significa che mancava qualcosa di fondamentale. Identifica una lacuna nella nostra comprensione del mondo”.
Belkin si spinge oltre. Pensa che possa esistere un modello matematico nascosto nel linguaggio che i modelli linguistici di grandi dimensioni riescono in qualche modo a sfruttare: “Pura speculazione, ma perché no?”.
“Il fatto che queste cose modellino il linguaggio è probabilmente una delle più grandi scoperte della storia”, dice. “Il fatto che si possa imparare il linguaggio semplicemente prevedendo la parola successiva con una catena di Markov è per me sconvolgente”.
Iniziare in piccolo
I ricercatori stanno cercando di capirlo pezzo per pezzo. Poiché i modelli di grandi dimensioni sono troppo complessi per essere studiati da soli, Belkin, Barak, Zhou e altri sperimentano invece su varietà più piccole (e più vecchie) di modelli statistici che sono meglio compresi. L’addestramento di questi modelli in condizioni diverse e su vari tipi di dati e l’osservazione di ciò che accade possono fornire indicazioni su ciò che sta accadendo. Questo aiuta a far decollare nuove teorie, ma non è sempre chiaro se tali teorie saranno valide anche per modelli più grandi. Dopo tutto, è nella complessità dei modelli di grandi dimensioni che risiedono molti comportamenti strani.
È in arrivo una teoria dell’apprendimento profondo? Daniel Hsu, informatico della Columbia University, uno dei coautori del lavoro di Belkin sulla doppia discesa, non si aspetta che tutte le risposte arrivino presto. “Ora abbiamo un’intuizione migliore”, dice. “Ma spiegare davvero tutto sul perché le reti neurali hanno questo tipo di comportamento inaspettato? Siamo ancora lontani dal farlo”.
Nel 2016, Chiyuan Zhang del MIT e i colleghi di Google Brain hanno pubblicato un importante documento intitolato “Understanding Deep Learning Requires Rethinking Generalization”. Nel 2021, cinque anni dopo, hanno ripubblicato il documento, intitolandolo “Understanding Deep Learning (Still) Requires Rethinking Generalization”. E nel 2024? “Più o meno lo stesso”, dice Zhang. “Ultimamente sono stati fatti molti progressi, anche se probabilmente sorgeranno molte più domande di quante ne vengano risolte”.
Nel frattempo, i ricercatori continuano a lottare anche con le osservazioni di base. A dicembre, Langosco e i suoi colleghi hanno presentato un documento al NeurIPS, una delle principali conferenze sull’intelligenza artificiale, in cui sostenevano che il grokking e la doppia discesa sono in realtà aspetti dello stesso fenomeno. “A guardarli bene, sembrano simili”, dice Langosco. Egli ritiene che una spiegazione di ciò che sta accadendo dovrebbe tener conto di entrambi.
Alla stessa conferenza, Alicia Curth, che studia statistica all’Università di Cambridge, e i suoi colleghi hanno sostenuto che la doppia discesa è in realtà un’illusione. “Non mi piaceva molto l’idea che il moderno apprendimento automatico fosse una sorta di magia che sfida tutte le leggi che abbiamo stabilito finora”, dice Curth. Il suo team ha sostenuto che il fenomeno della doppia discesa – in cui i modelli sembrano funzionare meglio, poi peggio e poi di nuovo meglio man mano che diventano più grandi – deriva dal modo in cui è stata misurata la complessità dei modelli.
Belkin e i suoi colleghi hanno utilizzato le dimensioni del modello, ovvero il numero di parametri, come misura della complessità. Ma Curth e i suoi colleghi hanno scoperto che il numero di parametri potrebbe non essere un buon indicatore della complessità, perché l’aggiunta di parametri a volte rende un modello più complesso e a volte lo rende meno complesso. Dipende da quali sono i valori, da come vengono utilizzati durante l’addestramento e da come interagiscono con gli altri, molti dei quali rimangono nascosti all’interno del modello. “Il nostro risultato è che non tutti i parametri del modello sono uguali”, afferma Curth.
In breve, se si usa una misura diversa per la complessità, i modelli di grandi dimensioni potrebbero essere conformi alla statistica classica. Questo non vuol dire che non ci siano molte cose che non capiamo su ciò che accade quando i modelli diventano più grandi, dice Curth. Ma abbiamo già tutta la matematica necessaria per spiegarlo.
Un grande mistero del nostro tempo
È vero che tali dibattiti possono entrare nel vivo. Che importanza ha il fatto che i modelli di IA siano o meno basati sulla statistica classica?
Una risposta è che una migliore comprensione teorica aiuterebbe a costruire un’intelligenza artificiale ancora migliore o a renderla più efficiente. Al momento, i progressi sono stati rapidi ma imprevedibili. Molte cose che GPT-4 di OpenAI è in grado di fare sono state una sorpresa anche per le persone che lo hanno realizzato. I ricercatori stanno ancora discutendo su ciò che può o non può fare. “Senza una sorta di teoria fondamentale, è molto difficile avere un’idea di cosa possiamo aspettarci da queste cose”, dice Belkin.
Barak è d’accordo. “Anche una volta che abbiamo i modelli, non è semplice, nemmeno con il senno di poi, dire esattamente perché certe capacità sono emerse quando sono emerse”, afferma.
Non si tratta solo di gestire i progressi, ma anche di anticipare i rischi. Molti dei ricercatori che lavorano sulla teoria dell’apprendimento profondo sono motivati dalle preoccupazioni per la sicurezza dei modelli futuri. “Non sappiamo quali capacità avrà GPT-5 finché non lo addestriamo e lo testiamo”, dice Langosco. “Potrebbe essere un problema di medie dimensioni in questo momento, ma diventerà un problema molto grande in futuro, quando i modelli diventeranno più potenti”.
Barak lavora nel team di superallineamento di OpenAI, creato dal capo scienziato dell’azienda, Ilya Sutskever, per capire come impedire a un’ipotetico sistema di superintelligenza di fare il furbo. “Sono molto interessato a ottenere garanzie”, dice. “Se si possono fare cose straordinarie ma non si riesce a controllarle davvero, allora non sono così straordinarie. A cosa serve un’auto che può guidare a 300 miglia all’ora se ha un volante traballante?”.
Ma dietro a tutto questo c’è anche una grande sfida scientifica. “L’intelligenza è sicuramente uno dei grandi misteri del nostro tempo”, afferma Barak.
“Siamo una scienza molto giovane”, dice. “Le domande che mi entusiasmano di più questo mese potrebbero essere diverse da quelle che mi entusiasmeranno di più il mese prossimo. Stiamo ancora scoprendo cose. Abbiamo bisogno di sperimentare e di sorprenderci”.