L’AI si addestra giocando

Una serie di videogame fornisce un flusso continuo di sfide aperte che spingono in direzione della creazione dell’intelligenza generale.

di Will Douglas Heaven

DeepMind ha sviluppato un vasto parco giochi virtuale che insegna le abilità generali dell’AI modificando all’infinito i compiti che le assegna. Invece di sviluppare solo le abilità necessarie per risolvere un particolare compito, le AI imparano a sperimentare ed esplorare, raccogliendo abilità che poi usano per avere successo in compiti che non hanno mai fronteggiato prima. È un piccolo passo verso l’intelligenza generale. (Si veda link)

XLand è un mondo 3D simile a un videogioco multicolorato gestito da un’AI centrale che assegna ai giocatori miliardi di compiti diversi modificando l’ambiente, le regole del gioco e il numero di partecipanti. Sia i giocatori che il gestore del parco giochi utilizzano l’apprendimento per rinforzo per migliorare per tentativi ed errori.

Durante l’allenamento, i giocatori affrontano prima semplici giochi a sfida singola, come trovare un cubo viola o posizionare una palla gialla su un pavimento rosso, per poi passare a giochi multiplayer più complessi come nascondino o ruba bandiera. Il responsabile del parco giochi non ha un obiettivo specifico, ma mira a migliorare le capacità generali dei giocatori nel tempo.

AI come AlphaZero di DeepMind hanno battuto i migliori giocatori umani del mondo a scacchi e Go, ma possono imparare solo un gioco alla volta. Come ha affermato il cofondatore di DeepMind Shane Legg quando gli ho parlato l’anno scorso, è come dover sostituire un cervello con un altro ogni volta che si cambia gioco. I ricercatori stanno ora cercando di costruire AI in grado di apprendere più attività contemporaneamente, il che significa insegnare loro abilità generali che rendano più facile l’adattamento.

Una strada promettente è quella dell’apprendimento a tempo indeterminato, in cui le AI vengono addestrate su molti compiti diversi senza un obiettivo specifico. Per molti versi, è così che gli umani e gli altri animali sembrano imparare, attraverso il gioco senza scopo. Ma per muoversi in questa direzione sono necessarie grandi quantità di dati. XLand genera automaticamente questi dati, sotto forma di una serie infinite di sfide. È simile a POET, un “dojo” di addestramento all’intelligenza artificiale in cui i robot a due gambe imparano a superare gli ostacoli in un paesaggio 2D. Il mondo di XLand è però molto più complesso e dettagliato. 

XLand è anche un esempio di AI che autoapprende, o ciò che Jeff Clune, che ha contribuito a sviluppare POET e guida un team che se ne occupa a OpenAI, chiama algoritmi di generazione di AI (AI-GA). “Questo lavoro spinge avanti le frontiere dell’AI-GA”, afferma Clune.

Alcuni degli XLand AI di DeepMind hanno affrontato 700.000 giochi diversi in 4.000 mondi diversi, incontrando 3,4 milioni di compiti unici in totale. Invece di imparare la cosa migliore da fare in ogni situazione, che è ciò che fa la maggior parte delle AI di apprendimento per rinforzo esistenti, i giocatori hanno imparato a sperimentare: spostare oggetti per vedere cosa succede o usare un oggetto come strumento per raggiungere un altro oggetto o nascondersi dietro, fino a quando non superano il compito specifico.

Nei video si possono vedere le AI che sfruttano oggetti per usi insoliti: per esempio una grande tessera diventa una rampa per salire su una piattaforma. È difficile sapere con certezza se tutti questi risultati sono intenzionali o casuali, affermano i ricercatori. Ma si ripetono costantemente. Le AI che hanno imparato a sperimentare hanno conseguito un vantaggio nella maggior parte dei compiti, anche in quelli che non avevano mai effettuato prima. I ricercatori hanno scoperto che dopo soli 30 minuti di addestramento per un nuovo compito complesso, gli XLand AI si sono adattati rapidamente, a differenza delle forme di intelligenza artificiale che non avevano trascorso del tempo in XL e non erano in grado di svolgere questi compiti.

Immagine di: Deepmind

(rp)

Related Posts
Total
0
Share