L’apprendimento per rinforzo può aiutare i robot ad affrontare nuovi compiti che non hanno mai provato prima
Se avete visto i video di Boston Dynamics che mostrano robot che corrono, saltano e fanno parkour, potreste avere l’impressione che i robot abbiano imparato a essere incredibilmente agili. In realtà, questi robot sono ancora codificati a mano e farebbero fatica ad affrontare nuovi ostacoli che non hanno mai incontrato prima.
Tuttavia, un nuovo metodo per insegnare ai robot a muoversi potrebbe aiutare a gestire nuovi scenari, attraverso prove ed errori, proprio come gli esseri umani imparano e si adattano a eventi imprevedibili.
I ricercatori hanno utilizzato una tecnica di intelligenza artificiale chiamata apprendimento per rinforzo per aiutare un robot a due zampe, soprannominato Cassie, a correre per 400 metri, su terreni diversi, e a eseguire salti in piedi e salti in alto, senza essere addestrato esplicitamente su ogni movimento. L’apprendimento per rinforzo funziona premiando o penalizzando un’intelligenza artificiale mentre cerca di portare a termine un obiettivo. In questo caso, l’approccio ha insegnato al robot a generalizzare e a rispondere in nuovi scenari, invece di bloccarsi come avrebbero potuto fare i suoi predecessori.
“Volevamo spingere i limiti dell’agilità dei robot”, spiega Zhongyu Li, dottorando presso l’Università della California, Berkeley, che ha lavorato al progetto, non ancora sottoposto a revisione paritaria. “L’obiettivo di alto livello era insegnare al robot a imparare a compiere tutti i tipi di movimenti dinamici come fa un essere umano”.
Il team ha utilizzato una simulazione per addestrare Cassie, un approccio che accelera drasticamente il tempo di apprendimento, da anni a settimane, e che consente al robot di eseguire le stesse abilità nel mondo reale senza ulteriori messe a punto.
In primo luogo, hanno addestrato la rete neurale che controlla Cassie a padroneggiare una semplice abilità da zero, come saltare sul posto, camminare in avanti o correre in avanti senza cadere. L’addestramento è avvenuto incoraggiandola a imitare i movimenti che le venivano mostrati, tra cui i dati di motion capture raccolti da un essere umano e le animazioni che dimostravano il movimento desiderato.
Una volta completata la prima fase, il team ha impartito al modello nuovi comandi, incoraggiando il robot a eseguire compiti utilizzando le sue nuove capacità di movimento. Una volta che il robot è diventato abile nell’eseguire i nuovi compiti in un ambiente simulato, hanno diversificato i compiti su cui era stato addestrato con un metodo chiamato randomizzazione dei compiti.
In questo modo il robot è molto più preparato ad affrontare scenari imprevisti. Ad esempio, il robot è stato in grado di mantenere un’andatura costante mentre veniva tirato lateralmente da un guinzaglio. “Abbiamo permesso al robot di utilizzare la storia di ciò che ha osservato e di adattarsi rapidamente al mondo reale”, spiega Li.
Cassie ha completato una corsa di 400 metri in due minuti e 34 secondi, poi ha saltato 1,4 metri nel salto in lungo senza bisogno di ulteriori allenamenti.
I ricercatori intendono ora studiare come questo tipo di tecnica possa essere utilizzata per addestrare i robot dotati di telecamere a bordo. Sarà più impegnativo che completare le azioni alla cieca, aggiunge Alan Fern, professore di informatica all’Oregon State University, che ha contribuito allo sviluppo del robot Cassie ma non è stato coinvolto in questo progetto.
“Il prossimo passo importante per il settore è rappresentato dai robot umanoidi che svolgono un lavoro reale, pianificano attività e interagiscono effettivamente con il mondo fisico in modi che non sono solo interazioni tra i piedi e il terreno”, ha dichiarato.