L’intelligenza artificiale sta rivoluzionando il modo in cui i robot imparano, lasciando alle aziende e ai ricercatori la necessità di avere più dati. Ottenere questi dati significa dover affrontare una serie di questioni etiche e legali.
Da quando è stato rilasciato ChatGPT, oggi interagiamo con gli strumenti di intelligenza artificiale in modo più diretto e regolare che mai.
Per contro, interagire con i robot è ancora una rarità per molti. Se non vi sottoponete a interventi chirurgici complessi o non lavorate nella logistica, il robot più avanzato che incontrate nella vostra vita quotidiana potrebbe essere ancora un aspirapolvere (se vi sentite giovani, il primo Roomba è uscito 22 anni fa).
Ma la situazione sta per cambiare. I robotisti sono convinti che, utilizzando nuove tecniche di intelligenza artificiale, riusciranno a ottenere qualcosa che il settore desidera da decenni: robot più capaci, in grado di muoversi liberamente in ambienti sconosciuti e di affrontare sfide mai viste prima.
“È come essere legati alla parte anteriore di un razzo”, afferma Russ Tedrake, vicepresidente della ricerca sulla robotica presso il Toyota Research Institute, parlando dell’attuale ritmo del settore. Tedrake afferma di aver visto molti cicli di crescita e declino, ma nessuno come questo. “Sono nel settore da circa 20 anni. Questo è diverso”, afferma.
Ma c’è qualcosa che rallenta questo razzo: la mancanza di accesso ai tipi di dati utilizzati per addestrare i robot in modo che possano interagire più agevolmente con il mondo fisico. È molto più difficile reperire i dati utilizzati per addestrare i modelli di intelligenza artificiale più avanzati, come GPT: si tratta per lo più di testi, immagini e video scaricati da Internet. I programmi di simulazione possono aiutare i robot a imparare a interagire con luoghi e oggetti, ma i risultati tendono ancora a essere preda di quello che è noto come “sim-to-real gap”, ovvero i fallimenti che si verificano quando i robot passano dalla simulazione al mondo reale.
Per ora, abbiamo ancora bisogno di accedere a dati fisici e reali per addestrare i robot. Questi dati sono relativamente scarsi e tendono a richiedere molto più tempo, sforzi e attrezzature costose per essere raccolti. Questa scarsità è uno dei principali fattori che attualmente frenano il progresso della robotica.
Di conseguenza, le aziende e i laboratori più importanti sono in forte competizione per trovare modi nuovi e migliori per raccogliere i dati di cui hanno bisogno. Questo li ha portati su strade strane, come l’uso di bracci robotici per girare pancake per ore e ore, la visione di migliaia di ore di video di interventi chirurgici presi da YouTube o l’invio di ricercatori in numerosi Airbnb per filmare ogni angolo. Lungo il percorso, si imbattono negli stessi problemi di privacy, etica e copyright delle loro controparti nel mondo dei chatbot.
Il nuovo bisogno di dati
Per decenni i robot sono stati addestrati a svolgere compiti specifici, come raccogliere una pallina da tennis o fare una capriola. Mentre gli esseri umani imparano a conoscere il mondo fisico attraverso l’osservazione, i tentativi e gli errori, molti robot imparavano attraverso equazioni e codici. Questo metodo era lento, ma peggio ancora significava che i robot non potevano trasferire le competenze da un compito a un altro.
Ma ora i progressi dell’intelligenza artificiale stanno accelerando un cambiamento che era già iniziato: lasciare che i robot imparino da soli attraverso i dati. Proprio come un modello linguistico può imparare da una biblioteca di romanzi, i modelli robotici possono ricevere alcune centinaia di dimostrazioni di una persona che lava il ketchup da un piatto usando, ad esempio, pinze robotiche, e quindi imitare il compito senza che gli venga insegnato esplicitamente l’aspetto del ketchup o come aprire il rubinetto. Questo approccio sta portando a progressi più rapidi e a macchine con capacità molto più generali.
Ora tutte le aziende e i laboratori più importanti stanno cercando di consentire ai robot di ragionare su nuovi compiti utilizzando l’intelligenza artificiale. Il successo dipenderà dalla capacità dei ricercatori di trovare un numero sufficiente di tipi di dati diversi per mettere a punto i modelli per i robot, oltre che da nuovi modi di usare l’apprendimento rinforzato per far capire loro quando hanno ragione e quando hanno torto.
“Molte persone stanno cercando di capire quale sarà la prossima grande fonte di dati”, afferma Pras Velagapudi, Chief Technology Officer di Agility Robotics, che produce un robot umanoide che opera nei magazzini per clienti come Amazon. Le risposte alla domanda di Velagapudi contribuiranno a definire in cosa eccelleranno le macchine di domani e quali ruoli potranno ricoprire nelle nostre case e nei luoghi di lavoro.
Dati di addestramento principali
Per capire come i robot stanno acquisendo i dati, immaginate una macelleria. Ci sono tagli pregiati e costosi pronti per essere cucinati. Ci sono i tagli umili e quotidiani. E poi c’è il caso delle rifilature e dei ritagli che si nascondono sul retro e che richiedono uno chef creativo per essere trasformati in qualcosa di delizioso. Sono tutti utilizzabili, ma non sono tutti uguali.
Per avere un assaggio di cosa significhino i dati primari per i robot, basti pensare ai metodi adottati dal Toyota Research Institute (TRI). In un vasto laboratorio di Cambridge, nel Massachusetts, attrezzato con bracci robotici, computer e un assortimento casuale di oggetti di uso quotidiano come palette e fruste per le uova, i ricercatori insegnano ai robot nuovi compiti attraverso la teleoperazione, creando i cosiddetti dati dimostrativi. Un essere umano potrebbe usare un braccio robotico per girare un pancake 300 volte in un pomeriggio, per esempio.
Il modello elabora i dati durante la notte e spesso il robot è in grado di eseguire il compito in modo autonomo il mattino successivo, spiega TRI. Poiché le dimostrazioni mostrano molte iterazioni dello stesso compito, la teleoperazione crea dati ricchi e precisamente etichettati che aiutano i robot a svolgere bene i nuovi compiti.
Il problema è che la creazione di tali dati richiede tempi lunghi ed è anche limitata dal numero di robot costosi che ci si può permettere. Per creare dati di addestramento di qualità in modo più economico ed efficiente, Shuran Song, responsabile del Robotics and Embodied AI Lab dell’Università di Stanford, ha progettato un dispositivo che può essere usato più agilmente con le mani e costruito a una frazione del costo. Essenzialmente una pinza di plastica leggera, può raccogliere dati mentre la si usa per attività quotidiane come rompere un uovo o apparecchiare la tavola. I dati possono poi essere utilizzati per addestrare i robot a imitare tali attività. L’uso di dispositivi più semplici come questo potrebbe accelerare il processo di raccolta dei dati.
Sforzi open-source
I robot hanno recentemente scoperto un altro metodo per ottenere più dati di teleoperazione: condividere ciò che hanno raccolto tra loro, risparmiando così il laborioso processo di creazione di serie di dati da soli.
Il Distributed Robot Interaction Dataset (DROID), pubblicato il mese scorso, è stato creato da ricercatori di 13 istituzioni, tra cui aziende come Google DeepMind e università di alto livello come Stanford e Carnegie Mellon. Contiene 350 ore di dati generati da esseri umani che svolgono compiti che vanno dalla chiusura di una macchina per waffle alla pulizia di una scrivania. Poiché i dati sono stati raccolti utilizzando hardware comunemente utilizzati nel mondo della robotica, i ricercatori possono utilizzarli per creare modelli di intelligenza artificiale e poi testarli su apparecchiature già in loro possesso.
L’iniziativa si basa sul successo dell’Open X-Embodiment Collaboration, un progetto simile di Google DeepMind che ha aggregato dati su 527 abilità, raccolti da una varietà di tipi diversi di hardware. L’insieme dei dati ha contribuito a costruire il modello RT-X di Google DeepMind, in grado di trasformare istruzioni testuali (ad esempio, “Sposta la mela a sinistra della lattina di soda”) in movimenti fisici.
I modelli robotici costruiti su dati open-source come questo possono essere impressionanti, afferma Lerrel Pinto, ricercatore che dirige il General-purpose Robotics and AI Lab della New York University. Ma non sono in grado di offrire prestazioni in una gamma di casi d’uso sufficientemente ampia da poter competere con i modelli proprietari costruiti dalle principali aziende private. Ciò che è disponibile attraverso l’open source semplicemente non è sufficiente perché i laboratori possano costruire modelli su scala tale da produrre il gold standard: robot con capacità generali e in grado di ricevere istruzioni attraverso testi, immagini e video.
“Il limite maggiore è rappresentato dai dati”, afferma. Solo le aziende più ricche ne hanno a sufficienza.
Il vantaggio di queste aziende in termini di dati si sta consolidando nel tempo. Nella loro ricerca di un maggior numero di dati per l’addestramento, le aziende private di robotica con un’ampia base di clienti hanno un’arma non tanto segreta: i loro robot sono essi stessi macchine per la raccolta di dati.
Covariant, un’azienda di robotica fondata nel 2017 da ricercatori di OpenAI, distribuisce robot addestrati a identificare e prelevare articoli nei magazzini per aziende come Crate & Barrel e Bonprix. Queste macchine raccolgono costantemente filmati, che vengono poi inviati a Covariant. Ogni volta che il robot non riesce a prendere un flacone di shampoo, ad esempio, diventa un dato da cui imparare e il modello migliora le sue capacità di raccolta dello shampoo per la volta successiva. Il risultato è un’enorme serie di dati proprietari raccolti dalle macchine dell’azienda.
Questo set di dati è parte del motivo per cui all’inizio di quest’anno Covariant è stata in grado di rilasciare un potente modello di base, come sono noti i modelli di IA capaci di una varietà di usi. I clienti possono ora comunicare con i suoi robot commerciali proprio come farebbero con un chatbot: si possono fare domande, mostrare foto e chiedere al robot di riprendere un video mentre sposta un articolo da una cassa all’altra. Queste interazioni dei clienti con il modello, che si chiama RFM-1, producono ancora più dati per aiutarlo a migliorare.
Peter Chen, cofondatore e CEO di Covariant, afferma che esporre i robot a una serie di oggetti e ambienti diversi è fondamentale per il successo del modello. “Abbiamo robot che maneggiano abbigliamento, prodotti farmaceutici, cosmetici e generi alimentari freschi”, spiega. “È uno dei punti di forza unici del nostro set di dati”. Il prossimo passo sarà quello di portare la sua flotta in altri settori e di far sì che il modello di intelligenza artificiale possa gestire diversi tipi di robot, come gli umanoidi, spiega Chen.
Imparare dai video
La scarsità di dati di alta qualità sulla teleoperazione e sul mondo reale ha portato alcuni robotisti a proporre di bypassare completamente questo metodo di raccolta. E se i robot potessero imparare dai video delle persone?
Questi dati video sono più facili da produrre, ma a differenza dei dati di teleoperazione, mancano di punti di dati “cinematici”, che tracciano i movimenti esatti di un braccio robotico mentre si muove nello spazio.
I ricercatori dell’Università di Washington e di Nvidia hanno creato una soluzione, realizzando un’applicazione mobile che consente alle persone di addestrare i robot utilizzando la realtà aumentata. Gli utenti riprendono i video di se stessi mentre completano semplici compiti con le mani, come prendere una tazza, e il programma AR può tradurre i risultati in waypoint da cui il software robotico può imparare.
Meta AI sta perseguendo un metodo di raccolta simile su scala più ampia attraverso il suo progetto Ego4D, un set di dati composto da oltre 3.700 ore di video girati da persone di tutto il mondo che fanno di tutto, dalla posa di mattoni al gioco del basket, fino all’impasto del pane. Il set di dati è suddiviso per attività e contiene migliaia di annotazioni, che dettagliano ciò che sta accadendo in ogni scena, come quando un’erbaccia è stata rimossa da un giardino o un pezzo di legno è stato completamente levigato.
Imparare dai dati video significa che i robot possono affrontare una varietà di compiti molto più ampia di quanto potrebbero fare se si affidassero esclusivamente alla teleoperazione umana (immaginate di piegare la pasta dei croissant con le braccia dei robot). Questo è importante, perché proprio come i modelli linguistici potenti hanno bisogno di dati complessi e diversificati per imparare, i robotisti possono creare i loro modelli potenti solo se espongono i robot a migliaia di compiti. A tal fine, alcuni ricercatori stanno cercando di estrarre informazioni utili da una vasta fonte di dati abbondanti ma di bassa qualità: YouTube. Con migliaia di ore di video caricate ogni minuto, i contenuti disponibili non mancano. Il problema è che la maggior parte di essi è piuttosto inutile per un robot. Questo perché non sono etichettati con i tipi di informazioni di cui i robot hanno bisogno, come le annotazioni o i dati cinematici.
“Si può dire [a un robot]: “Oh, questa è una persona che gioca a frisbee con il suo cane””, dice Chen, di Covariant, immaginando un tipico video che si potrebbe trovare su YouTube. Ma è molto difficile dire: “Beh, quando questa persona lancia un frisbee, questa è l’accelerazione e la rotazione ed è per questo che vola in questo modo”.
Tuttavia, alcuni tentativi si sono rivelati promettenti. Quando era postdoc a Stanford, il ricercatore di IA Emmett Goodman ha studiato come portare l’IA in sala operatoria per rendere gli interventi più sicuri e prevedibili. La mancanza di dati è diventata presto un ostacolo. Negli interventi laparoscopici, i chirurghi utilizzano spesso bracci robotici per manipolare strumenti chirurgici inseriti attraverso incisioni molto piccole nel corpo. Questi bracci robotici sono dotati di telecamere che catturano filmati che possono aiutare ad addestrare i modelli, una volta che le informazioni di identificazione personale sono state rimosse dai dati. Negli interventi chirurgici aperti più tradizionali, invece, i chirurghi usano le mani invece dei bracci robotici. Questo produce molti meno dati con cui costruire modelli di intelligenza artificiale.
“Questo è l’ostacolo principale per cui l’IA in chirurgia aperta è la più lenta a svilupparsi”, afferma. “Come si fa a raccogliere effettivamente quei dati?”.
Per affrontare questo problema, Goodman ha addestrato un modello di intelligenza artificiale su migliaia di ore di video di interventi chirurgici a cielo aperto, ripresi da medici con telecamere portatili o a soffitto, che il suo team ha raccolto da YouTube (con informazioni identificabili rimosse). Il suo modello, descritto in un articolo pubblicato sulla rivista medica JAMA nel dicembre 2023, è stato in grado di identificare segmenti di operazioni dai video. In questo modo sono state gettate le basi per la creazione di dati utili per l’addestramento, anche se Goodman ammette che non sono state superate le barriere che impediscono di farlo su scala, come la privacy dei pazienti e il consenso informato.
Acque legali inesplorate
È probabile che, ovunque i robot si rivolgano per ottenere nuovi dati di addestramento, a un certo punto dovranno affrontare importanti battaglie legali.
I produttori di modelli linguistici di grandi dimensioni devono già affrontare questioni di credits e copyright. Una causa intentata dal New York Times sostiene che ChatGPT copia lo stile espressivo delle sue storie quando genera il testo. Di recente, il direttore tecnico di OpenAI è balzato agli onori della cronaca per aver dichiarato che Sora, lo strumento di generazione di video dell’azienda, è stato addestrato su dati disponibili pubblicamente, scatenando una critica da parte dell’amministratore delegato di YouTube, il quale ha affermato che se Sora avesse imparato dai video di YouTube, avrebbe violato i termini di servizio della piattaforma.
“È un’area in cui c’è una sostanziale incertezza giuridica”, afferma Frank Pasquale, professore alla Cornell Law School. Se le aziende di robotica vogliono unirsi ad altre aziende di IA per utilizzare opere protette da copyright nei loro set di addestramento, non è chiaro se ciò sia consentito dalla dottrina del fair-use, che consente l’utilizzo di materiale protetto da copyright senza autorizzazione in una serie ristretta di circostanze. Un esempio spesso citato dalle aziende tecnologiche e da coloro che simpatizzano con il loro punto di vista è il caso di Google Books del 2015, in cui i tribunali hanno stabilito che Google non ha violato le leggi sul copyright nel creare un database ricercabile di milioni di libri. Secondo Pasquale, questo precedente legale potrebbe far pendere la bilancia leggermente a favore delle aziende tecnologiche.
È troppo presto per dire se le sfide legali rallenteranno il razzo della robotica, dato che i casi legati all’IA sono numerosi e ancora indecisi. Ma è sicuro che i robotici che setacciano YouTube o altre fonti video su Internet per ottenere dati di addestramento si troveranno a navigare in acque piuttosto inesplorate.
La prossima era
Non tutti i robotisti ritengono che i dati siano l’anello mancante per la prossima svolta. Alcuni sostengono che se costruiamo un mondo virtuale sufficientemente buono in cui i robot possano imparare, forse non abbiamo affatto bisogno di dati di addestramento provenienti dal mondo reale. Perché fare lo sforzo di addestrare un robot che gira i pancake in una cucina reale, per esempio, se invece può imparare attraverso una simulazione digitale di una Waffle House?
Da tempo i robot utilizzano programmi di simulazione, che replicano digitalmente gli ambienti in cui i robot si muovono, spesso con dettagli come la consistenza delle assi del pavimento o le ombre proiettate dalle luci in alto. Ma per quanto potenti, i robot che usano questi programmi per addestrare le macchine hanno sempre dovuto fare i conti con il divario tra simulazione e realtà.
Ora il divario potrebbe ridursi. Tecniche avanzate di generazione delle immagini e un’elaborazione più veloce stanno permettendo alle simulazioni di assomigliare maggiormente al mondo reale. Nvidia, che ha sfruttato la sua esperienza nella grafica dei videogiochi per costruire il principale simulatore di robotica, chiamato Isaac Sim, ha annunciato il mese scorso che le principali aziende di robotica umanoide, come Figure e Agility, stanno utilizzando il suo programma per costruire modelli di base. Queste aziende costruiscono repliche virtuali dei loro robot nel simulatore e poi li liberano per esplorare una serie di nuovi ambienti e compiti.
Deepu Talla, vicepresidente della divisione robotica ed edge computing di Nvidia, non si tira indietro nel prevedere che questo metodo di addestramento sostituirà quasi l’addestramento dei robot nel mondo reale. È semplicemente molto più economico, dice.
“Sarà un milione a uno, se non di più, in termini di quantità di cose che verranno fatte in simulazione”, dice. “Perché possiamo permetterci di farlo”.
Ma se i modelli possono risolvere alcuni dei problemi “cognitivi”, come l’apprendimento di nuovi compiti, ci sono una serie di sfide per realizzare questo successo in una forma fisica efficace e sicura, dice Aaron Saunders, Chief Technology Officer di Boston Dynamics. Siamo ancora lontani dal costruire hardware in grado di percepire diversi tipi di materiali, di strofinare e pulire o di applicare una forza delicata.
“C’è ancora un’enorme parte dell’equazione che riguarda il modo in cui programmare i robot per agire effettivamente su tutte queste informazioni e interagire con il mondo”, dice.
Se risolvessimo questo problema, come sarebbe il futuro della robotica? Potremmo vedere robot agili che aiutano le persone con disabilità fisiche a muoversi nelle loro case, droni autonomi che ripuliscono l’inquinamento o i rifiuti pericolosi, o robot chirurgici che praticano incisioni microscopiche, portando a operazioni con un rischio ridotto di complicazioni. Per tutte queste visioni ottimistiche, tuttavia, ne stanno già sorgendo altre più controverse. L’uso dell’intelligenza artificiale da parte delle forze armate di tutto il mondo è in aumento e l’emergere di armi autonome solleva questioni preoccupanti.
I laboratori e le aziende pronti a guidare la corsa ai dati includono, al momento, le startup di robot umanoidi amate dagli investitori (Figure AI ha recentemente ricevuto un finanziamento di 675 milioni di dollari), le aziende commerciali con flotte considerevoli di robot che raccolgono dati e le aziende di droni sostenute da significativi investimenti militari. Nel frattempo, i laboratori accademici più piccoli stanno facendo di più con meno per creare insiemi di dati che rivaleggiano con quelli a disposizione delle Big Tech.
Ma ciò che è chiaro a tutti coloro con cui parlo è che siamo all’inizio della corsa ai dati dei robot. Poiché la strada giusta da percorrere è tutt’altro che ovvia, tutti i robotisti che si ritengono all’altezza stanno seguendo tutti i metodi per vedere cosa funziona.
Non c’è un vero e proprio consenso” nel campo, afferma Benjamin Burchfiel, ricercatore senior in robotica presso il TRI. “E questo è un posto sano in cui stare”.