Un nuovo sistema potrebbe aiutare ad addestrare i robot interamente in mondi generati.
Insegnare ai robot a muoversi in ambienti che non conoscono è difficile. È possibile addestrarli sulla base di dati fisici e reali ricavati da registrazioni effettuate dagli esseri umani, ma sono scarsi e costosi da raccogliere. Le simulazioni digitali sono un modo rapido e scalabile per insegnare loro a fare cose nuove, ma i robot spesso falliscono quando vengono tirati fuori dal mondo virtuale e viene chiesto loro di svolgere gli stessi compiti in quello reale.
Ora c’è un’opzione potenzialmente migliore: un nuovo sistema che utilizza modelli di intelligenza artificiale generativa insieme a un simulatore di fisica per sviluppare terreni di addestramento virtuali che rispecchiano più accuratamente il mondo fisico. I robot addestrati con questo metodo hanno ottenuto un tasso di successo più alto nei test nel mondo reale rispetto a quelli addestrati con tecniche più tradizionali.
I ricercatori hanno usato il sistema, chiamato LucidSim, per addestrare un cane robot al parkour, facendogli superare una scatola e salire le scale anche se non aveva mai visto dati reali. L’approccio dimostra quanto possa essere utile l’intelligenza artificiale generativa quando si tratta di insegnare ai robot a svolgere compiti impegnativi. Inoltre, solleva la possibilità di addestrarli in mondi completamente virtuali. La ricerca è stata presentata la scorsa settimana alla Conference on Robot Learning (CoRL).
“Siamo nel bel mezzo di una rivoluzione industriale per la robotica”, afferma Ge Yang, postdoc presso il Computer Science and Artificial Intelligence Laboratory del MIT, che ha lavorato al progetto. “Questo è il nostro tentativo di comprendere l’impatto di questi modelli [di IA generativa] al di fuori dei loro scopi originari, con la speranza che ci porti alla prossima generazione di strumenti e modelli”.
LucidSim utilizza una combinazione di modelli generativi di intelligenza artificiale per creare i dati di addestramento visivo. Per prima cosa i ricercatori hanno generato migliaia di messaggi per ChatGPT, facendogli creare descrizioni di una serie di ambienti che rappresentano le condizioni che il robot incontrerebbe nel mondo reale, compresi diversi tipi di tempo, ore del giorno e condizioni di illuminazione. Tra questi, “un antico vicolo fiancheggiato da case da tè e piccoli negozi caratteristici, ognuno dei quali espone ornamenti e calligrafie tradizionali” e “il sole illumina un prato un po’ trasandato punteggiato di macchie secche”.
Queste descrizioni sono state inserite in un sistema che mappa la geometria 3D e i dati fisici su immagini generate dall’intelligenza artificiale, creando brevi video che tracciano una traiettoria da seguire per il robot. Il robot attinge a queste informazioni per calcolare l’altezza, la larghezza e la profondità degli oggetti che deve attraversare, ad esempio una scatola o una serie di scale.
I ricercatori hanno testato LucidSim istruendo un robot a quattro zampe dotato di webcam a completare diversi compiti, tra cui individuare un cono stradale o un pallone da calcio, scavalcare una scatola e salire e scendere le scale. Il robot ha ottenuto risultati nettamente migliori rispetto a quelli ottenuti con un sistema addestrato su simulazioni tradizionali. In 20 prove di localizzazione del cono, LucidSim ha avuto una percentuale di successo del 100%, contro il 70% dei sistemi addestrati su simulazioni standard. Allo stesso modo, LucidSim ha raggiunto il pallone da calcio in altre 20 prove nell’85% dei casi, contro il 35% dell’altro sistema.
Infine, quando il robot ha eseguito LucidSim, ha completato con successo tutte le 10 prove di salita delle scale, rispetto al 50% dell’altro sistema.
È probabile che questi risultati migliorino ulteriormente in futuro, se LucidSim attingerà direttamente a sofisticati modelli video generativi, anziché a una combinazione artificiosa di modelli di linguaggio, immagine e fisica, afferma Phillip Isola, professore associato del MIT che ha collaborato alla ricerca.
L’approccio dei ricercatori all’utilizzo dell’IA generativa è innovativo e aprirà la strada a nuove interessanti ricerche, afferma Mahi Shafiullah, uno studente di dottorato alla New York University che utilizza modelli di IA per addestrare i robot e che non ha lavorato al progetto.
“La direzione più interessante che vedo personalmente è un mix di dati reali e realistici ‘immaginati’ che possono aiutare i nostri metodi attuali, affamati di dati, a scalare più velocemente e meglio”, afferma.
La capacità di addestrare un robot da zero basandosi esclusivamente su situazioni e scenari generati dall’IA è un risultato significativo e potrebbe estendersi oltre le macchine ad agenti di IA più generalizzati, afferma Zafeirios Fountas, ricercatore senior di Huawei specializzato in ‑IA ispirata al cervello‑.
“Il termine ‘robot’ qui è usato in modo molto generico; stiamo parlando di una sorta di IA che interagisce con il mondo reale”, spiega l’autore. “Posso immaginare che venga utilizzata per controllare qualsiasi tipo di informazione visiva, dai robot alle auto a guida autonoma, fino al controllo dello schermo del computer o dello smartphone”.
Per quanto riguarda i prossimi passi, gli autori sono interessati a tentare di addestrare un robot umanoide usando dati interamente sintetici – un obiettivo ambizioso, come riconoscono, dato che i robot bipedi sono in genere meno stabili delle loro controparti a quattro zampe. Stanno anche rivolgendo la loro attenzione a un’altra nuova sfida: usare LucidSim per addestrare i tipi di bracci robotici che lavorano nelle fabbriche e nelle cucine. I compiti che devono svolgere richiedono molta più destrezza e comprensione fisica che correre in un paesaggio.
“Prendere una tazza di caffè e versarla è un problema molto difficile e aperto”, afferma Isola. “Se potessimo prendere una simulazione aumentata con l’IA generativa per creare molta diversità e addestrare un agente molto robusto che possa operare in un bar, penso che sarebbe molto bello”.