I feedback positivi o negativi aiutano a padroneggiare compiti complessi

Ottimizzando gli algoritmi di apprendimento del rinforzo, DeepMind ha scoperto nuovi dettagli su come la dopamina aiuta il cervello a imparare.

di Karen Hao

Nel 1951, Marvin Minsky, allora studente di Harvard, prese in considerazione il comportamento animale per cercare di progettare una macchina intelligente. Attingendo al lavoro del fisiologo Ivan Pavlov, che notoriamente usava i cani per mostrare come gli animali imparano attraverso punizioni e ricompense, Minsky creò un computer che continuava ad apprendere attraverso rinforzi simili per uscire da un labirinto virtuale.

All’epoca i neuroscienziati dovevano ancora capire i meccanismi all’interno del cervello che consentono agli animali questo tipo di comprensione. Ma Minsky grazie a un meccanismo d’imitazione, riuscì a far progredire il settore dell’intelligenza artificiale. Diversi decenni dopo l’apprendimento per rinforzo ha a sua volta aiutato il campo della neuroscienza a scoprire quei meccanismi prima sconosciuti, alimentando un circolo virtuoso di avanzamento tra i due campi.

In un articolo pubblicato su “Nature”, DeepMind, il braccio IA di Alphabet, ha usato ancora una volta le lezioni dell’apprendimento per rinforzo per proporre una nuova teoria sui meccanismi di ricompensa all’interno del nostro cervello. L’ipotesi, supportata dai risultati sperimentali iniziali, potrebbe non solo migliorare la nostra comprensione della salute mentale e della motivazione. Potrebbe anche convalidare l’attuale direzione della ricerca dell’intelligenza artificiale verso la costruzione di un’intelligenza generale più simile a quella dell’uomo.

Ad alto livello, l’apprendimento per rinforzo segue le intuizioni legate all’osservazioni del comportamento dei cani da parte di Pavlov: è possibile insegnare a un agente a padroneggiare compiti complessi e nuovi attraverso solo feedback positivi e negativi. 

Un algoritmo inizia ad apprendere un’attività assegnata prevedendo in modo casuale quale azione potrebbe ottenere una ricompensa. Quindi esegue l’azione, osserva la vera ricompensa e regola la sua previsione in base al margine di errore. Dopo milioni o addirittura miliardi di prove, gli errori di predizione dell’algoritmo si avvicinano allo zero e a quel punto sa esattamente quali azioni intraprendere per massimizzare la sua ricompensa e completare così il suo compito.

Misurando il comportamento dei neuroni della dopamina nei topi, i ricercatori hanno scoperto che la distribuzione delle predizioni dei neuroni (decodificata) ha seguito da vicino la distribuzione delle ricompense effettive (verità di base).Deepmind

Si scopre che il sistema di ricompensa del cervello funziona più o meno allo stesso modo: una scoperta fatta negli anni 1990, connessa allo sviluppo degli algoritmi di apprendimento del rinforzo. Quando un essere umano o un animale stanno per compiere un’azione, i loro neuroni dopaminergici fanno una previsione sulla ricompensa attesa. Una volta ricevuta la ricompensa effettiva, rilasciano una quantità di dopamina che corrisponde all’errore di predizione. 

Una ricompensa migliore del previsto provoca un forte rilascio di dopamina, mentre una ricompensa peggiore del previsto sopprime la produzione della sostanza chimica. La dopamina, in altre parole, funge da segnale di correzione, dicendo ai neuroni di adattare le loro previsioni fino a quando non corrispondono alla realtà. Il fenomeno, noto come errore di previsione della ricompensa, funziona in modo molto simile a un algoritmo di apprendimento di rinforzo.

La nuova ricerca di DeepMind si basa sulla stretta connessione tra questi meccanismi di apprendimento naturali e artificiali. Nel 2017, i suoi ricercatori hanno introdotto un algoritmo di apprendimento di rinforzo aggiornato che da allora ha sbloccato prestazioni sempre più impressionanti in vari compiti. Ora credono che questo nuovo metodo possa offrire una spiegazione ancora più precisa di come funzionano i neuroni della dopamina nel cervello.

In particolare, questo algoritmo cambia il modo di previsione dei premi. Considerando che il vecchio approccio ha stimato i premi come un singolo numero – inteso a eguagliare il risultato medio previsto – il nuovo sistema li rappresenta in modo più preciso come distribuzione (si pensi a una slot machine: si può vincere o perdere seguendo un criterio distributivo. Ma in nessun caso li si riceve sotto forma di un risultato medio previsto).

La modifica si presta a una nuova ipotesi: i neuroni della dopamina prevedono anche i premi nello stesso modo distributivo?

Per testare questa teoria, DeepMind ha collaborato con un gruppo di Harvard per osservare il comportamento dei neuroni della dopamina nei topi. Hanno proposto un compito ai topi e li hanno premiati in base al lancio di dadi, misurando lo schema di attivazione dei loro neuroni della dopamina complessiva. Hanno scoperto che ogni neurone ha rilasciato una differente quantità di dopamina, il che significa che tutti i neuroni avevano previsto risultati diversi. 

Mentre alcuni erano troppo “ottimisti”, prevedendo premi più alti di quelli effettivamente ricevuti, altri erano più “pessimisti”, minimizzando la realtà. Quando i ricercatori hanno mappato la distribuzione di tali previsioni, si sono resi conto che ha seguito da vicino la distribuzione dei premi effettivi. Questi dati offrono prove convincenti che il cervello effettivamente utilizza previsioni di ricompensa distribuite per rafforzare il suo algoritmpo di apprendimento.

“Questa è una decisa estensione della nozione di codifica da parte della dopamina dell’errore di previsione della ricompensa”, ha scritto in un’e-mailWolfram Schultz, un pioniere nel comportamento dei neuroni della dopamina che non è stato direttamente coinvolto nello studio.

“È sorprendente come questa semplicissima risposta alla dopamina segua prevedibilmente schemi intuitivi dei processi di apprendimento biologico di base che stanno diventando una componente dell’IA”.

La ricerca ha implicazioni per l’IA e per le neuroscienze. Innanzitutto, convalida l’apprendimento distribuito di rinforzo come un percorso promettente verso lo sviluppo di capacità di intelligenza artificiale più avanzate. 

“Se il cervello lo sta usando, probabilmente è una buona idea”, ha detto in un incontro con la stampa Matt Botvinick, direttore della ricerca sulle neuroscienze di DeepMind e uno dei principali autori del documento. “Ci dice che questa è una tecnica computazionale che può funzionare in situazioni del mondo reale. Si adatterà bene ad altri processi computazionali”.

In secondo luogo, potrebbe offrire un aggiornamento importante a una delle teorie canoniche della neuroscienza sui sistemi di ricompensa nel cervello, che a sua volta potrebbe migliorare la nostra comprensione di tanti altri aspetti del funzionamento dell’intelligenza, dalla motivazione alla salute mentale. 

Cosa potrebbe significare, per esempio, avere neuroni dopaminici “pessimisti” e “ottimisti”? Se il cervello ascolta selettivamente solo l’uno o l’altro, potrebbe portare a squilibri chimici e indurre depressione?

Fondamentalmente, con ulteriori processi di decodifica nel cervello, i risultati fanno anche luce su ciò che caratterizza l’intelligenza umana. “Ci offre una nuova prospettiva su ciò che accade nel nostro cervello durante la vita di tutti i giorni”, ha detto Botvinick.

Immagine: Wikimedia Commons

(rp)

Related Posts
Total
0
Share