Skip to main content

Uno dei padri del deep learning mette insieme teorie conosciute per tracciare un nuovo percorso per un’intelligenza artificiale generale. Ma sono tanti i dubbi in merito

Melissa Heikkila e Will Douglas Heaven

Circa un anno e mezzo fa, Yann LeCun si rese conto di aver sbagliato. Il responsabile scientifico del laboratorio di intelligenza artificiale di Meta e uno dei ricercatori di intelligenza artificiale più influenti al mondo, aveva cercato di fornire alle macchine una comprensione di base di come funziona il mondo, una sorta di buon senso, addestrando le reti neurali a prevedere le immagini successive di video clip di eventi quotidiani. Ma indovinare i fotogrammi futuri di un video pixel per pixel era troppo complesso. L’insuccesso è stato completo.

Ora, dopo aver cercato di capire per mesi dove era l’errore, in una bozza di documento condivisa con “MIT Technology Review” ha delineato una nuova visione per la prossima generazione di intelligenza artificiale. Per LeCun, le proposte potrebbero essere i primi passi di un percorso per costruire macchine con la capacità di ragionare e pianificare come gli esseri umani, ciò che molti chiamano intelligenza artificiale generale, o AGI. Si allontana anche dalle tendenze più in voga oggi nell’apprendimento automatico, riproponendo alcune vecchie idee che sembravano passate di moda. 

Ma la sua visione è tutt’altro che completa e solleva più domande di quante ne risolva. Il punto interrogativo più grande, come fa notare lo stesso LeCun, è che non sa come costruire ciò che descrive. Il fulcro del nuovo approccio è una rete neurale che può imparare a vedere il mondo a diversi livelli di dettaglio. Abbandonando la necessità di previsioni perfette per i pixel, questa rete si concentrerebbe solo su quelle caratteristiche in una scena che sono rilevanti per l’attività in corso. LeCun propone di accoppiare questa rete principale con un’altra, chiamata configuratore, che determina quale livello di dettaglio è richiesto e modifica di conseguenza il sistema generale.

Per LeCun, AGI farà parte del nostro modo di interagire con la tecnologia del futuro. La sua visione è in totale sintonia con quella del suo datore di lavoro, Meta, che propone un metaverso di realtà virtuale. A parere dell’azienda, tra 10 o 15 anni le persone non porteranno in tasca smartphone, ma occhiali per realtà aumentata dotati di assistenti virtuali che guideranno gli esseri umani durante la loro giornata. “Per aiutarci realmente, dice LeCun, l’AI deve disporre di un’intelligenza più o meno a livello umano”. 

“Yann parla da tempo di molte di queste idee”, afferma Yoshua Bengio, ricercatore di intelligenza artificiale dell’Università di Montreal e direttore scientifico del Mila-Quebec Institute. “Le sue domande sono giuste, ma si tratta più di una proposta di ricerca che di soluzioni chiare”, spiega.

Una questione di buon senso

LeCun pensa all’AI da quasi 40 anni. Nel 2018 ha vinto insieme a Bengio e Geoffrey Hinton il primo premio dell’informatica, il Turing Award, per il suo lavoro pionieristico sul deep learning. “Far sì che le macchine si comportino come esseri umani e animali è stata la ricerca della mia vita”, dice.
 
A suo parere, i cervelli degli animali si servono di una sorta di simulazione del mondo, che si potrebbe definire un modello del mondo. Appreso durante l’infanzia, è il modo in cui gli animali (compresi gli umani) fanno ipotesi su cosa sta succedendo intorno a loro. I bambini imparano le basi nei primi mesi di vita osservando il mondo, dice LeCun. Vedere una palla che cade più volte è sufficiente per dare a un bambino un’idea di come funziona la gravità. 

“Buon senso” è il termine generico per questo tipo di ragionamento intuitivo che include una conoscenza della fisica semplice: per esempio, sapere che il mondo è tridimensionale e che gli oggetti in realtà non scompaiono quando escono dalla vista. Ci consente di prevedere dove sarà una palla che rimbalza o si troverà una bicicletta in corsa dopo pochi secondi. Inoltre, ci aiuta a unire i punti tra informazioni incomplete: se sentiamo uno schianto metallico dalla cucina, possiamo fare un’ipotesi plausibile che qualcuno abbia fatto cadere una padella, perché sappiamo che tipo di oggetti fanno quel rumore.

In breve, il buon senso ci dice quali eventi sono possibili e impossibili e quali eventi sono più probabili di altri. Ci consente di prevedere le conseguenze delle nostre azioni, di fare piani e di ignorare i dettagli irrilevanti. Ma insegnarlo alle macchine è difficile. Le odierne reti neurali devono essere esposte a migliaia di esempi prima che inizino a individuare tali schemi.

Per molti versi il buon senso equivale alla capacità di prevedere cosa accadrà dopo. “Questa è l’essenza dell’intelligenza”, afferma LeCun. Ecco perché lui, e alcuni altri ricercatori, hanno utilizzato clip video per addestrare i loro modelli. Ma le tecniche di apprendimento automatico esistenti richiedevano ai modelli di prevedere esattamente cosa sarebbe accaduto nel fotogramma successivo e generarlo pixel per pixel. E’ come se qualcuno immaginasse di tenere in mano una penna e la lasciasse cadere a terra, dice LeCun. Il buon senso gli fa capire che la penna cadrà, ma non sarà in grado di prevedere la posizione esatta in cui andrà a finire. Questo tipo di previsioni richiederebbe l’elaborazione di alcune equazioni fisiche difficili. 

Ecco perché LeCun ora sta cercando di addestrare una rete neurale in grado di concentrarsi solo sugli aspetti rilevanti del mondo: prevedere che la penna cadrà, ma non dove andrà a finire esattamente. Nella sua visione, questa rete addestrata funziona come l’equivalente del modello del mondo su cui fanno affidamento gli animali.

Ingredienti misteriosi

LeCun afferma di aver costruito una prima versione di questo modello del mondo abile a eseguire il riconoscimento di oggetti di base. Ora sta lavorando per addestrarlo a fare previsioni. Ma non sa ancora come dovrebbe funzionare il configuratore. LeCun immagina la rete neurale come il controller dell’intero sistema, in grado di decidere il tipo di previsioni che il modello del mondo dovrebbe fare in un dato momento e le modalità di adattamento necessarie per rendere possibili tali previsioni.

Lo scienziato è convinto che sia necessario qualcosa come un configuratore, ma non ha chiaro come addestrare una rete neurale a svolgere il lavoro. A suo modo di vedere, il modello del mondo e il configuratore sono due elementi chiave di un sistema più ampio, noto come architettura cognitiva, che include altre reti neurali sul modello del cervello. Per esempio, spiega LeCun, il configuratore e il modello del mondo hanno lo scopo di replicare le funzioni della corteccia prefrontale. Il modello motivazionale corrisponde a determinate funzioni dell’amigdala e così via. 
 
L’ipotesi delle architetture cognitive, in particolare quelle ispirate al cervello, esiste da decenni. Anche molte altre idee di LeCun sul sistema di previsione sono conosciute. Ma da quando il deep learning è diventato l’approccio dominante nell’AI, queste strade sono state abbandonate. Quello che lui ha fatto è stato prendere queste vecchie idee e riabilitarle, suggerendo modi in cui possono essere combinate con il deep learning. Per LeCun, si tratta di un passaggio essenziale perché crede che i due approcci dominanti nell’AI moderna siano vicoli ciechi.

Quando si tratta di costruire un’AI generale, ci sono due campi di ricerca principali. In uno, molti studiosi pensano che il notevole successo di grandi modelli di linguaggio o di creazione di immagini come GPT-3 e DALL-E di OpenAI dimostrino che tutto ciò che dobbiamo fare è costruire modelli sempre più grandi.

Nell’altro ci sono i campioni dell’apprendimento per rinforzo, la tecnica dell’AI che premia comportamenti specifici per far sì che le reti neurali apprendano per tentativi ed errori. Questo è l’approccio utilizzato da DeepMind per addestrare le sue AI di gioco come AlphaZero. Con le ricompense giuste, l’apprendimento per rinforzo alla fine produrrà un’intelligenza più generale.

LeCun non crede a nessuno dei due approcci: “L’idea che aumentando sempre più le dimensioni degli attuali modelli linguistici alla fine emergerà un’AI a livello umano, non mi convince affatto”, dice. “Questi grandi modelli manipolano solo parole e immagini”, continua, “e non hanno esperienza diretta del mondo”. È ugualmente scettico sull’apprendimento per rinforzo, perché richiede grandi quantità di dati per addestrare i modelli a svolgere anche compiti semplici. “Penso che non abbia alcuna possibilità di funzionare”, afferma LeCun.

David Silver di DeepMind, che ha guidato il lavoro su AlphaZero ed è un grande sostenitore dell’apprendimento per rinforzo, non è d’accordo con questa valutazione ma accoglie favorevolmente la visione generale di LeCun. “È una nuova entusiasmante proposta su come rappresentare e apprendere un modello del mondo”, spiega.

Anche Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute, è entusiasta di vedere un approccio completamente nuovo. Condivide la posizione di LeCun sul fatto che i grandi modelli linguistici non possono essere l’intera storia. Anche per lei “mancano di memoria e di rappresentazioni interne del mondo che in realtà sono davvero importanti”.

Natasha Jaques, ricercatrice di Google Brain, pensa che i modelli linguistici dovrebbero comunque svolgere un ruolo. “È strano che il linguaggio manchi del tutto nelle proposte di LeCun”, sostiene. “Sappiamo che i modelli linguistici di grandi dimensioni sono super efficaci e integrano un mucchio di conoscenza umana”.

Jaques, che lavora sui modi per far sì che le AI condividano informazioni e abilità tra loro, sottolinea che gli esseri umani non devono avere esperienza diretta di qualcosa per impararlo. Possiamo cambiare il nostro comportamento semplicemente sentendoci dire qualcosa, come non toccare una padella calda. “Come posso aggiornare questo modello del mondo che Yann propone se non attraverso il linguaggio?” si chiede.

C’è anche un altro problema. Se dovessero funzionare, le idee di LeCun creerebbero una potente tecnologia che potrebbe essere innovativa come Internet. Eppure la sua proposta non prende in considerazione le forme di controllo sul comportamento del modello, o chi dovrebbe esercitare il controllo. Questa è una strana omissione, afferma Abhishek Gupta, il fondatore del Montreal AI Ethics Institute ed esperto di AI del Boston Consulting Group. “Si dovrebbe riflettere di più a ciò che serve affinché l’AI funzioni bene in una società, privilegiando l’approfondimento degli aspetti etici”, afferma Gupta. 

Jaques comunque osserva che le proposte di LeCun sono ancora a livello teorico e che i rischi sono relativi. LeCun sarebbe d’accordo. Il suo scopo è piantare i semi di un nuovo approccio nella speranza che altri raccolgano i frutti delle sue teorie. “Senza la collaborazione di tutti gli altri, difficilmente si faranno seri passi in avanti nella costruzione dell’intelligenza generale”, conclude.

Immagine: Brian Ach / Getty Images

Didascalia: Yann LeCun

(rp)