Skip to main content
COVARIANT

Ma può passare dal laboratorio al magazzino?

Nell’estate del 2021, OpenAI ha chiuso in sordina il suo team di robotica, annunciando che i progressi erano bloccati dalla mancanza di dati necessari per addestrare i robot a muoversi e ragionare con l’intelligenza artificiale.

Ora tre dei primi ricercatori di OpenAI affermano che la startup da cui sono partiti nel 2017, chiamata Covariant, ha risolto il problema e ha presentato un sistema che combina le capacità di ragionamento di grandi modelli linguistici con la destrezza fisica di un robot avanzato.

Il nuovo modello, chiamato RFM-1, è stato addestrato sulla base di anni di dati raccolti dalla piccola flotta di robot raccoglitori di Covariant che clienti come Crate & Barrel e Bonprix utilizzano nei magazzini di tutto il mondo, oltre a parole e video provenienti da Internet. Nei prossimi mesi, il modello sarà distribuito ai clienti di Covariant. L’azienda spera che il sistema diventi sempre più capace ed efficiente man mano che viene utilizzato nel mondo reale.

COVARIANT

Cosa può fare? In una dimostrazione a cui ho partecipato la scorsa settimana, i cofondatori di Covariant, Peter Chen e Pieter Abbeel, mi hanno mostrato come gli utenti possano sollecitare il modello utilizzando cinque diversi tipi di input: testo, immagini, video, istruzioni robotiche e misurazioni.

Ad esempio, gli si può mostrare l’immagine di un cestino pieno di attrezzature sportive e dirgli di prendere il pacchetto di palline da tennis. Il robot può quindi afferrare l’oggetto, generare un’immagine dell’aspetto del cestino dopo che le palline da tennis sono sparite o creare un video che mostra una vista dall’alto di come il robot svolgerà il compito.

Se il modello prevede di non essere in grado di afferrare correttamente l’oggetto, potrebbe anche rispondere: “Non riesco a fare una buona presa. Avete qualche consiglio?”. Una risposta potrebbe consigliare di utilizzare un numero specifico di ventose sulle braccia per ottenere una presa migliore: otto anziché sei, ad esempio.

Questo rappresenta un salto di qualità, mi ha detto Chen, per quanto riguarda i robot in grado di adattarsi all’ambiente circostante utilizzando dati di addestramento piuttosto che il complesso codice specifico per le attività che ha alimentato la precedente generazione di robot industriali. È anche un passo avanti verso cantieri in cui i manager possono impartire istruzioni in linguaggio umano senza preoccuparsi dei limiti della manodopera umana. (“Confezionate 600 kit di preparazione per la pasta ai peperoni rossi usando la seguente ricetta. Non fare pause!”).

Lerrel Pinto, un ricercatore che dirige il laboratorio di robotica generale e AI della New York University e che non ha legami con Covariant, afferma che anche se sono già stati costruiti robot multimodali di base e sono stati usati in laboratorio, l’implementazione su scala di uno in grado di comunicare in così tante modalità rappresenta un’impresa impressionante per l’azienda.

Per superare i suoi concorrenti, Covariant dovrà mettere le mani su un numero sufficiente di dati per rendere il robot utile in natura, mi ha detto Pinto. I magazzini e le banchine di carico sono i luoghi in cui il robot verrà messo alla prova, interagendo costantemente con nuove istruzioni, persone, oggetti e ambienti.

“I gruppi che riusciranno ad addestrare buoni modelli saranno quelli che hanno accesso a grandi quantità di dati robotici o che sono in grado di generare tali dati”, ha dichiarato.

Covariant afferma che il modello ha una capacità di ragionamento “simile a quella umana”, ma ha i suoi limiti. Durante la dimostrazione, in cui ho potuto vedere un feed live di un robot Covariant e una finestra di chat per comunicare con lui, Chen mi ha invitato a chiedere al modello tutto ciò che volevo. Quando ho chiesto al robot di “riportare la banana al Tote Due”, ha faticato a ripercorrere i suoi passi, raccogliendo una spugna, poi una mela, poi una serie di altri oggetti prima di portare a termine il compito della banana.

“Non capisce il nuovo concetto”, ha detto Chen a titolo di spiegazione, “ma è un buon esempio: potrebbe non funzionare ancora bene nei luoghi in cui non si dispone di buoni dati di addestramento”.

Il nuovo modello dell’azienda incarna un cambiamento di paradigma che sta attraversando il mondo della robotica. Invece di insegnare a un robot come funziona il mondo manualmente, attraverso istruzioni come equazioni fisiche e codici, i ricercatori lo stanno istruendo nello stesso modo in cui gli esseri umani imparano: attraverso milioni di osservazioni.

Il risultato è che “può davvero agire come un cervello flessibile molto efficace per risolvere compiti robotici arbitrari”, ha detto Chen.

Il campo di gioco delle aziende che utilizzano l’IA per alimentare sistemi robotici più agili è destinato ad affollarsi quest’anno. All’inizio del mese, la startup di robotica umanoide Figure AI ha annunciato la sua partnership con OpenAI e ha raccolto 675 milioni di dollari da giganti tecnologici come Nvidia e Microsoft. Marc Raibert, il fondatore di Boston Dynamics, ha recentemente avviato un’iniziativa per integrare meglio l’IA nella robotica. 

Ciò significa che i progressi nell’apprendimento automatico inizieranno probabilmente a tradursi in progressi nella robotica. Tuttavia, alcune questioni rimangono irrisolte. Se i modelli linguistici di grandi dimensioni continuano a essere addestrati su milioni di parole senza compensare gli autori di tali parole, forse ci si aspetterà che anche i modelli robotici vengano addestrati su video senza pagare i loro creatori. E se i modelli linguistici allucinano e perpetuano i pregiudizi, quali saranno gli equivalenti nella robotica?

Nel frattempo, Covariant andrà avanti, desiderosa di far sì che RFM-1 impari e si perfezioni continuamente. Alla fine, i ricercatori mirano a far allenare il robot su video creati dal modello stesso: un tipo di meta-apprendimento che non solo mi fa girare la testa, ma mi fa anche preoccupare su cosa accadrà se gli errori commessi dal modello si sommano. Ma con una tale fame di dati di addestramento, i ricercatori lo considerano quasi inevitabile.

“La formazione su questo sarà una realtà”, dice Abbeel. “Se parleremo di nuovo tra sei mesi, parleremo di questo”.