
L’ultimo boom della robotica rappresenta una rivoluzione nel modo in cui le macchine hanno imparato a interagire con il mondo.
I robotici un tempo sognavano in grande ma costruivano in piccolo. Speravano di eguagliare o superare la straordinaria complessità del corpo umano, per poi passare la loro carriera a perfezionare bracci robotici per le fabbriche automobilistiche. Puntavano a C-3P0, ma finivano con il Roomba.
La vera ambizione di molti di questi ricercatori era il robot della fantascienza: uno che potesse muoversi nel mondo, adattarsi a diversi ambienti e interagire in modo sicuro e utile con le persone. Per chi ha una mentalità sociale, una macchina del genere potrebbe aiutare chi ha problemi di mobilità, alleviare la solitudine o svolgere lavori troppo pericolosi per gli esseri umani. Per chi è più incline agli aspetti finanziari, significherebbe una fonte inesauribile di manodopera a costo zero. In entrambi i casi, una lunga storia di fallimenti ha lasciato la maggior parte della Silicon Valley riluttante a scommettere su robot utili.
Ma le cose sono cambiate. Le macchine non sono ancora state costruite, ma i soldi stanno arrivando: solo nel 2025, aziende e investitori hanno investito 6,1 miliardi di dollari nei robot umanoidi, quattro volte di più rispetto al 2024.
Cosa è successo? Una rivoluzione nel modo in cui le macchine hanno imparato a interagire con il mondo.
Immaginate di voler installare un paio di braccia robotiche a casa vostra esclusivamente per fare una cosa: piegare i vestiti. Come imparerebbe a farlo? Potreste iniziare scrivendo delle regole. Controllare il tessuto per capire quanta deformazione può tollerare prima di strapparsi. Identificare il colletto di una camicia. Spostare la pinza sulla manica sinistra, sollevarla e piegarla verso l’interno esattamente di questa distanza. Ripetere l’operazione per la manica destra. Se la camicia è ruotata, modificare il piano di conseguenza. Se la manica è attorcigliata, correggerla. Il numero di regole aumenta rapidamente, ma una loro completa catalogazione potrebbe produrre risultati affidabili. Questo era il metodo originale della robotica: anticipare ogni possibilità e codificarla in anticipo.
Intorno al 2015, l’avanguardia ha iniziato a fare le cose in modo diverso: costruire una simulazione digitale dei bracci robotici e dei vestiti, e dare al programma un segnale di ricompensa ogni volta che piega con successo e un segnale acustico ogni volta che fallisce. In questo modo, migliora provando ogni sorta di tecnica attraverso tentativi ed errori, con milioni di iterazioni — lo stesso modo in cui l’IA è diventata brava a giocare ai videogames .
L’arrivo di ChatGPT nel 2022 ha catalizzato l’attuale boom. Addestrati su enormi quantità di testo, i grandi modelli linguistici non funzionano per tentativi ed errori, ma imparando a prevedere quale parola dovrebbe seguire in una frase. Modelli simili adattati alla robotica sono stati presto in grado di assorbire immagini, letture dei sensori e la posizione delle articolazioni di un robot e prevedere l’azione successiva che la macchina dovrebbe compiere, emettendo dozzine di comandi motori ogni secondo.
Questo cambiamento concettuale – affidarsi a modelli di IA che assimilano grandi quantità di dati – sembra funzionare sia che quel robot di supporto debba parlare con le persone, muoversi in un ambiente o persino svolgere compiti complicati. Ed è stato abbinato ad altre idee su come realizzare questo nuovo modo di apprendere, come l’impiego di robot anche se non sono ancora perfetti, in modo che possano imparare dall’ambiente in cui sono destinati a lavorare. Oggi, i robotici della Silicon Valley stanno di nuovo sognando in grande. Ecco come è successo.
Jibo
Jibo
Un robot sociale mobile intratteneva conversazioni molto prima dell’era degli LLM.
Nel 2014, una ricercatrice di robotica del MIT di nome Cynthia Breazeal ha presentato al mondo un robot senza braccia, senza gambe e senza volto chiamato Jibo. In effetti, sembrava una lampada. L’obiettivo di Breazeal era quello di creare un robot sociale per le famiglie, e l’idea ha raccolto 3,7 milioni di dollari in una campagna di finanziamento collettivo. I primi preordini costavano 749 dollari.
Il primo Jibo era in grado di presentarsi e ballare per intrattenere i bambini, ma questo era tutto. L’idea era sempre stata quella di renderlo una sorta di assistente incarnato in grado di gestire qualsiasi cosa, dalla pianificazione degli appuntamenti alle e-mail, fino alla narrazione di storie. Si è guadagnato un certo numero di utenti affezionati, ma alla fine l’azienda ha chiuso i battenti nel 2019.

Una campagna di crowdfunding avviata nel 2014 ha raccolto 4.800 preordini per Jibo.
PER GENTILE CONCESSIONE DEL MIT MEDIA LAB
Col senno di poi, una cosa di cui Jibo aveva davvero bisogno erano migliori capacità linguistiche. Era in competizione con Siri di Apple e Alexa di Amazon, e tutte quelle tecnologie all’epoca si basavano su script complessi. In termini generali, quando gli parlavi, il software traduceva il tuo discorso in testo, analizzava ciò che volevi e creava una risposta attingendo da frammenti preapprovati. Quei frammenti potevano essere affascinanti, ma erano anche ripetitivi e semplicemente noiosi: decisamente robotici. Questa era una sfida particolarmente difficile per un robot che avrebbe dovuto essere socievole e orientato alla famiglia.
Da allora, ovviamente, c’è stata una rivoluzione nel modo in cui le macchine possono generare il linguaggio. La modalità vocale di qualsiasi fornitore leader di IA è ora coinvolgente e impressionante, e molte startup hardware stanno cercando (senza riuscirci) di realizzare prodotti che ne traggano vantaggio.
Ma questo comporta un nuovo rischio: mentre le conversazioni con copione non possono davvero andare fuori dai binari, quelle generate dall’IA certamente possono. Alcuni popolari giocattoli basati sull’IA, ad esempio, hanno parlato ai bambini di come trovare fiammiferi e coltelli.
OpenAI
Dactyl
Una mano robotica addestrata con simulazioni cerca di modellare l’imprevedibilità e la variabilità del mondo reale.
Nel 2018, tutti i principali laboratori di robotica stavano cercando di abbandonare le vecchie regole prestabilite e di addestrare i robot attraverso tentativi ed errori. OpenAI ha cercato di addestrare virtualmente la sua mano robotica, Dactyl, utilizzando modelli digitali della mano e dei cubi delle dimensioni di un palmo che Dactyl avrebbe dovuto manipolare. I cubi avevano lettere e numeri sulle facce; il modello poteva impostare un compito del tipo “Ruota il cubo in modo che il lato rosso con la lettera O sia rivolto verso l’alto”.
Ecco il problema: una mano robotica potrebbe diventare davvero brava a farlo nel suo mondo simulato, ma quando si prende quel programma e gli si chiede di lavorare su una versione reale nel mondo reale, le lievi differenze tra i due possono far andare le cose storte. I colori potrebbero essere leggermente diversi, oppure la gomma deformabile sulla punta delle dita del robot potrebbe rivelarsi più elastica di quanto non fosse nella simulazione.

Dactyl, parte del primo tentativo di OpenAI nel campo della robotica, è stato addestrato in simulazione a risolvere i cubi di Rubik.
PER GENTILE CONCESSIONE DI OPENAI
La soluzione si chiama randomizzazione di dominio. In sostanza, si creano milioni di mondi simulati che variano tutti leggermente e in modo casuale l’uno dall’altro. In ciascuno di essi l’attrito potrebbe essere minore, l’illuminazione più intensa o i colori più scuri. L’esposizione a una quantità sufficiente di queste variazioni significa che i robot saranno in grado di manipolare meglio il cubo nel mondo reale. L’approccio ha funzionato su Dactyl e, un anno dopo, è stato in grado di utilizzare le stesse tecniche di base per fare qualcosa di più difficile: risolvere i cubi di Rubik (anche se ha funzionato solo nel 60% dei casi e solo nel 20% quando le combinazioni erano particolarmente difficili).
Tuttavia, i limiti della simulazione fanno sì che questa tecnica abbia oggi un ruolo molto minore rispetto al 2018. OpenAI ha chiuso la sua divisione di robotica nel 2021, ma recentemente l’ha riavviata, concentrandosi, secondo quanto riferito, sugli umanoidi.
Google DeepMind
RT-2
L’addestramento su immagini provenienti da Internet aiuta i robot a tradurre il linguaggio in azione.
Intorno al 2022, il team di robotica di Google era impegnato in attività piuttosto insolite. Ha trascorso 17 mesi fornendo alle persone dei controller robotici e filmandole mentre facevano di tutto, dal raccogliere sacchetti di patatine all’aprire barattoli. Il team ha finito per catalogare 700 compiti diversi.
L’obiettivo era quello di costruire e testare uno dei primi modelli di base su larga scala per la robotica. Come per i modelli linguistici di grandi dimensioni, l’idea era quella di inserire grandi quantità di testo, tokenizzarlo in un formato con cui un algoritmo potesse lavorare e quindi generare un output. L’RT-1 di Google riceveva input su ciò che l’ e del robot stava guardando e su come erano posizionate le varie parti del braccio robotico; poi prendeva un’istruzione e la traduceva in comandi motori per muovere il robot. Quando aveva già visto quelle attività, le portava a termine con successo nel 97% dei casi; riusciva a eseguire il 76% delle istruzioni che non aveva mai visto prima.

Il modello RT-2, acronimo di Robotic Transformer 2, ha incorporato dati provenienti da Internet per aiutare i robot a elaborare ciò che vedevano.
PER GENTILE CONCESSIONE DI GOOGLE DEEPMIND
La seconda versione, RT-2, è stata lanciata l’anno successivo e ha fatto un ulteriore passo avanti. Anziché basarsi su dati specifici della robotica, ha ampliato il proprio campo d’azione: è stata addestrata su immagini più generiche provenienti da Internet, proprio come i modelli di visione-linguaggio su cui molti ricercatori stavano lavorando all’epoca. Ciò ha permesso al robot di interpretare la posizione di determinati oggetti nella scena.
“Tutte queste altre cose sono state sbloccate”, afferma Kanishka Rao, un robotico di Google DeepMind che ha guidato il lavoro su entrambe le iterazioni. “Ora potevamo fare cose come ‘Metti la lattina di Coca-Cola vicino alla foto di Taylor Swift'”.
Nel 2025, Google DeepMind ha ulteriormente fuso i mondi dei modelli linguistici di grandi dimensioni e della robotica, rilasciando un modello Gemini Robotics con una capacità migliorata di comprendere i comandi in linguaggio naturale.
Covariant
RFM-1
Un modello di IA che permette ai bracci robotici di comportarsi come colleghi di lavoro.
Nel 2017, prima che OpenAI chiudesse il suo primo team di robotica, un gruppo di suoi ingegneri ha avviato un progetto chiamato Covariant, con l’obiettivo di costruire non umanoidi fantascientifici, ma il più pragmatico di tutti i robot: un braccio in grado di afferrare e spostare oggetti nei magazzini. Dopo aver costruito un sistema basato su modelli di base simili a quelli di Google, Covariant ha implementato questa piattaforma in magazzini come quelli gestiti da Crate & Barrel e l’ha trattata come una pipeline di raccolta dati.
Nel 2024, Covariant aveva rilasciato un modello robotico, l’RFM-1, con cui era possibile interagire come con un collega. Se, ad esempio, si mostravano a un braccio molte confezioni di palline da tennis, era possibile istruirlo a spostare ciascuna confezione in un’area separata. E il robot poteva rispondere, magari prevedendo che non sarebbe stato in grado di afferrare bene l’oggetto e chiedendo quindi consiglio su quali ventose specifiche utilizzare.
Questo tipo di cose era già stato fatto in esperimenti, ma Covariant lo stava lanciando su scala significativa. L’azienda ora disponeva di telecamere e dispositivi di raccolta dati in ogni sede dei clienti, fornendo ancora più dati per l’addestramento del modello.

Un robot Covariant dimostra l'”induzione”, la comune attività di magazzino che consiste nel posizionare oggetti su smistatori o nastri trasportatori.
PER GENTILE CONCESSIONE DI COVARIANT
Non era perfetto. In una demo del marzo 2024 con una serie di oggetti da cucina, il robot ha faticato quando gli è stato chiesto di “riportare la banana” nella sua posizione originale. Ha preso una spugna, poi una mela, poi una serie di altri oggetti prima di portare finalmente a termine il compito.
“Non capisce il nuovo concetto” di tornare sui propri passi, mi disse all’epoca il cofondatore Peter Chen. “Ma è un buon esempio: potrebbe non funzionare ancora bene nei casi in cui non si disponga di dati di addestramento adeguati”.
Chen e il collega fondatore Pieter Abbeel sono stati presto assunti da Amazon, che attualmente utilizza su licenza il modello robotico di Covariant (Amazon non ha risposto alle domande su come venga utilizzato, ma l’azienda gestisce circa 1.300 magazzini solo negli Stati Uniti).
Agility Robotics
Digit
Le aziende stanno mettendo alla prova questo umanoide in contesti reali.
I nuovi investimenti che affluiscono verso le startup di robotica sono destinati in gran parte a robot che non hanno la forma di lampade o bracci, ma di persone. I robot umanoidi dovrebbero essere in grado di inserirsi senza soluzione di continuità negli spazi e nei lavori in cui attualmente operano gli esseri umani, evitando la necessità di riorganizzare le linee di assemblaggio per adattarle a nuove forme come bracci giganti.
È più facile a dirsi che a farsi. Nei rari casi in cui gli umanoidi compaiono in magazzini reali, sono spesso confinati in zone di prova e programmi pilota.

Amazon e altre aziende stanno utilizzando Digit per aiutare a spostare i contenitori di spedizione.
PER GENTILE CONCESSIONE DI AGILITY ROBOTICS
Detto questo, l’umanoide Digit di Agility sembra svolgere un lavoro concreto. Il design, con articolazioni a vista e una testa decisamente non umana, è guidato più dalla funzionalità che dall’estetica fantascientifica. Amazon, Toyota e GXO (un gigante della logistica con clienti come Apple e Nike) lo hanno tutti implementato, rendendolo uno dei primi esempi di robot umanoide che le aziende considerano in grado di fornire un reale risparmio sui costi piuttosto che una semplice novità. I loro Digit trascorrono le giornate raccogliendo, spostando e impilando contenitori di spedizione.
L’attuale Digit è però ancora molto lontano dall’assistente simile a un essere umano su cui sta scommettendo la Silicon Valley. Può sollevare solo 16 kg, ad esempio, e ogni volta che Agility rende Digit più forte, la sua batteria diventa più pesante e deve ricaricarsi più spesso. Inoltre, gli organismi di normazione affermano che gli umanoidi necessitano di norme di sicurezza più severe rispetto alla maggior parte dei robot industriali, poiché sono progettati per essere mobili e trascorrere del tempo in prossimità delle persone.
Ma Digit dimostra che questa rivoluzione nell’addestramento dei robot non sta convergendo su un unico metodo. Agility si affida a tecniche di simulazione come quelle utilizzate da OpenAI per addestrare la propria mano, e l’azienda ha collaborato con i modelli Gemini di Google per aiutare i propri robot ad adattarsi a nuovi ambienti. Ecco dove più di un decennio di esperimenti ha portato il settore: ora sta costruendo in grande.






