Cercando di superarsi in astuzia, i bot di OpenAI possono imparare a risolvere una vasta gamma di problemi senza dover ripartire ogni volta da zero.
di Will Douglas Heaven
Un braccio robotico virtuale ha imparato a svolgere una serie di compiti diversi, come impilare blocchi, apparecchiare la tavola, disporre i pezzi degli scacchi, senza dover seguire un nuovo addestramento per ogni compito. Lo ha fatto giocando contro un secondo braccio robotico che è stato addestrato per proporgli sfide sempre più difficili.
Sviluppati dai ricercatori di OpenAi, due identici bracci robotici, Alice e Bob, imparano giocando uno contro l’altro in una simulazione, senza intervento umano. I robot utilizzano l’apprendimento per rinforzo, una tecnica in cui le intelligenze artificiali vengono addestrate per tentativi ed errori a scegliere quali azioni intraprendere in diverse situazioni per raggiungere determinati obiettivi.
Il gioco prevede lo spostamento di oggetti su un tavolo virtuale. Organizzando gli oggetti in modi specifici, Alice cerca di proporre enigmi difficili da risolvere per Bob che cerca di risolverli. Progressivamente, Alice imposta enigmi più complessi e Bob migliora. Dopo l’addestramento sui puzzle a blocchi impostati da Alice, Bob ha generalizzato una serie di compiti, tra cui apparecchiare un tavolo e disporre i pezzi degli scacchi.
I modelli di deep learning in genere devono essere impostati ognuno in totale autonomia dall’altro. Per esempio, AlphaZero (che impara anche giocando contro se stesso) utilizza un singolo algoritmo per insegnare a se stesso a giocare a scacchi, Shogi e Go, ma solo una partita alla volta. Il giocatore di scacchi AlphaZero non può giocare a Go e quello che gioca a Go non può giocare a Shogi. Costruire macchine in grado di eseguire compiti multitasking è un grosso problema irrisolto sulla strada di un’AI generale.
Un problema è che formare l’AI per compiti di multitasking richiede un vasto numero di esempi. OpenAI evita la difficoltà addestrando Alice a generare gli esempi per Bob, utilizzando cioè una intelligenza artificiale per addestrarne un’altra. Alice ha imparato a fissare obiettivi come costruire una torre di blocchi, prenderla e tenerla in bilico. Bob ha imparato a usare le proprietà dell’ambiente (virtuale), come l’attrito, per afferrare e ruotare gli oggetti.
Finora l’approccio è stato testato solo in simulazione, ma i ricercatori di OpenAI, e anche altri, stanno trasferendo i modelli addestrati in ambienti virtuali a quelli fisici. Una simulazione consente alle AI di sfornare grandi set di dati in un breve lasso di tempo, prima di essere ottimizzate per le impostazioni del mondo reale.
I ricercatori affermano che il loro obiettivo finale è addestrare un robot a risolvere qualsiasi compito che una persona potrebbe chiedergli. Come GPT-3, un modello di linguaggio che può utilizzare la lingua in un’ampia varietà di modi diversi, questi bracci robotici fanno parte del tentativo di OpenAI di costruire un’AI multitasking. Usare un’intelligenza artificiale per addestrarne un’altra potrebbe essere una parte fondamentale di questo lavoro.
(rp)