Skip to main content
TOYOTA RESEARCH INSTITUTE

Ci stiamo avvicinando sempre di più alla loro capacità di gestire le faccende domestiche.

Il Santo Graal della robotica, fin dagli albori del settore, è stato quello di costruire un robot in grado di svolgere i lavori domestici. Ma per molto tempo questo è stato solo un sogno. Anche se i ricercatori sono riusciti a far fare ai robot cose impressionanti in laboratorio, come il parkour, di solito questo richiede una pianificazione meticolosa in un ambiente strettamente controllato. Questo rende difficile per i robot lavorare in modo affidabile nelle case con bambini e animali domestici, che hanno spazi sempre diversi e contengono ogni sorta di disordine.

Tra i robotisti è ben noto il paradosso di Moravec: ciò che è difficile per gli esseri umani è facile per le macchine e ciò che è facile per gli esseri umani è difficile per le macchine. Grazie all’intelligenza artificiale, questa situazione sta cambiando. I robot stanno iniziando a essere in grado di svolgere compiti come piegare il bucato, cucinare e scaricare i cestini della spesa, che fino a poco tempo fa erano considerati quasi impossibili.

Nella nostra ultima storia di copertina per la rivista cartacea MIT Technology Review, ho analizzato come la robotica come campo sia a un punto di inflessione. Per saperne di più, leggete qui. Nella ricerca sulla robotica sta convergendo un mix di cose davvero entusiasmante, che potrebbe dare vita a robot che potrebbero – ma solo potrebbero – uscire dal laboratorio ed entrare nelle nostre case.

Ecco tre motivi per cui la robotica sta per avere il suo “momento ChatGPT”.

1. L’hardware economico rende la ricerca più accessibile
I robot sono costosi. I robot altamente sofisticati possono facilmente costare centinaia di migliaia di dollari, il che li rende inaccessibili per la maggior parte dei ricercatori. Ad esempio, il PR2, una delle prime iterazioni di robot domestici, pesava 200 kg e costava 400.000 dollari.

Ma nuovi robot più economici stanno permettendo a un maggior numero di ricercatori di fare cose interessanti. Un nuovo robot chiamato Stretch, sviluppato dalla startup Hello Robot, è stato lanciato durante la pandemia con un prezzo molto più ragionevole di circa 18.000 dollari e un peso di 15 chili. Ha una piccola base mobile, un bastone con una telecamera che penzola, un braccio regolabile con una pinza con ventose alle estremità e può essere controllato con un controller per console.

Nel frattempo, un team di Stanford ha costruito un sistema chiamato Mobile ALOHA (un acronimo per “a low-cost open-source hardware teleoperation system” – “un sistema di teleoperazione hardware open-source a basso costo”), che ha imparato a cucinare i gamberi con l’aiuto di sole 20 dimostrazioni umane e dati provenienti da altre attività. I ricercatori hanno utilizzato componenti di serie per mettere insieme robot dal prezzo più ragionevole, nell’ordine delle decine e non delle centinaia di migliaia di euro.

2. L’intelligenza artificiale ci sta aiutando a costruire “cervelli robotici”
Ciò che distingue questa nuova generazione di robot è il loro software. Grazie al boom dell’intelligenza artificiale, l’attenzione si sta spostando dalle prodezze di destrezza fisica raggiunte da robot costosi alla costruzione di “cervelli robotici generici” sotto forma di reti neurali. Al posto della pianificazione e dell’addestramento tradizionali, i robot hanno iniziato a utilizzare il deep learning e le reti neurali per creare sistemi che imparano dall’ambiente circostante e regolano il loro comportamento di conseguenza.

La scorsa estate, Google ha lanciato un modello di visione-linguaggio-azione chiamato RT-2. Questo modello ricava la sua comprensione generale del mondo dai testi e dalle immagini online su cui è stato addestrato, oltre che dalle sue stesse interazioni. Traduce questi dati in azioni robotiche.

I ricercatori del Toyota Research Institute, della Columbia University e del MIT sono riusciti a insegnare rapidamente ai robot a svolgere molti nuovi compiti con l’aiuto di una tecnica di apprendimento dell’IA chiamata apprendimento per imitazione, in aggiunta all’IA generativa. Ritengono di aver trovato un modo per estendere la tecnologia che spinge l’IA generativa dal regno del testo, delle immagini e dei video al dominio dei movimenti dei robot.

Anche molti altri hanno sfruttato l’IA generativa. Covariant, una startup di robotica nata dall’unità di ricerca sulla robotica di OpenAI, ora chiusa, ha costruito un modello multimodale chiamato RFM-1. Può accettare richieste sotto forma di testo, immagini, video, istruzioni robotiche o misurazioni. L’intelligenza artificiale generativa consente al robot di comprendere le istruzioni e di generare immagini o video relativi a tali compiti.

3. Più dati permettono ai robot di imparare più skill
La potenza dei grandi modelli di intelligenza artificiale come il GPT-4 risiede nelle risme e risme di dati raccolti da Internet. Ma questo non funziona per i robot, che hanno bisogno di dati raccolti appositamente per i robot. Hanno bisogno di dimostrazioni fisiche di come si aprono lavatrici e frigoriferi, si raccolgono piatti o si piega il bucato. Al momento questi dati sono molto scarsi e richiedono molto tempo per essere raccolti dagli esseri umani.

Una nuova iniziativa avviata da Google DeepMind, chiamata Open X-Embodiment Collaboration, mira a cambiare le cose. L’anno scorso, l’azienda ha collaborato con 34 laboratori di ricerca e circa 150 ricercatori per raccogliere dati da 22 diversi robot, tra cui lo Stretch di Hello Robot. Il set di dati risultante, pubblicato nell’ottobre 2023, consiste in robot che dimostrano 527 abilità, come raccogliere, spingere e spostare.

I primi segnali mostrano che un maggior numero di dati sta portando a robot più intelligenti. I ricercatori hanno costruito due versioni di un modello per i robot, chiamato RT-X, che può essere eseguito localmente sui computer dei singoli laboratori o consultato via web. Il modello più grande, accessibile via web, è stato preaddestrato con i dati di Internet per sviluppare un “senso comune visivo”, o una comprensione di base del mondo, a partire dai modelli di linguaggio e di immagini. Quando i ricercatori hanno utilizzato il modello RT-X su molti robot diversi, hanno scoperto che i robot erano in grado di apprendere le abilità con il 50% di successo in più rispetto ai sistemi sviluppati da ogni singolo laboratorio.

Per saperne di più, leggete la mia storia qui.