Skip to main content
ZEYI LIU ET AL

Affinché i robot possano andare oltre i magazzini e arrivare nelle case, dovranno navigare usando più della semplice vista.

La maggior parte dei robot dotati di intelligenza artificiale oggi utilizza le telecamere per capire l’ambiente circostante e imparare nuovi compiti, ma sta diventando più facile addestrare i robot anche con i suoni, aiutandoli ad adattarsi a compiti e ambienti in cui la visibilità è limitata.

Anche se la vista è importante, ci sono attività quotidiane in cui il suono è più utile, come ascoltare le cipolle che sfrigolano sui fornelli per capire se la padella è alla giusta temperatura. Tuttavia, l’addestramento dei robot con l’audio è stato effettuato solo in ambienti di laboratorio altamente controllati e le tecniche sono rimaste indietro rispetto ad altri metodi di apprendimento rapido dei robot.

I ricercatori del Robotics and Embodied AI Lab dell’Università di Stanford hanno deciso di cambiare questa situazione. Per prima cosa hanno costruito un sistema per la raccolta di dati audio, costituito da una telecamera GoPro e da una pinza con un microfono progettato per filtrare i rumori di fondo. I dimostratori umani hanno usato la pinza per una serie di compiti domestici e poi hanno usato questi dati per insegnare ai bracci robotici come eseguire i compiti da soli. I nuovi algoritmi di addestramento del team aiutano i robot a raccogliere indizi dai segnali audio per eseguire le operazioni in modo più efficace.

“Finora i robot si sono allenati su video muti”, spiega Zeyi Liu, dottorando a Stanford e autore principale dello studio. “Ma l’audio contiene moltissimi dati utili”.

Per verificare quanto un robot possa avere successo se è in grado di “ascoltare”, i ricercatori hanno scelto quattro compiti: girare un bagel in una padella, cancellare una lavagna, unire due strisce di velcro e versare dei dadi da una tazza. In ogni compito, i suoni forniscono indizi che le telecamere o i sensori tattili non sono in grado di fornire, come ad esempio sapere se la gomma è correttamente a contatto con la lavagna o se la tazza contiene dadi.

Dopo aver dimostrato ogni compito un paio di centinaia di volte, il team ha confrontato le percentuali di successo dell’addestramento con l’audio e dell’addestramento solo con la vista. I risultati, pubblicati in un documento su arXiv che non è stato sottoposto a revisione paritaria, sono stati promettenti. Nel test dei dadi, utilizzando solo la vista, il robot è riuscito a capire nel 27% dei casi se c’erano dei dadi nella tazza, ma la percentuale è salita al 94% quando è stato aggiunto l’audio.

Non è la prima volta che l’audio viene usato per addestrare i robot, dice Shuran Song, responsabile del laboratorio che ha prodotto lo studio, ma è un grande passo avanti per farlo su scala: “Stiamo rendendo più facile l’uso dell’audio raccolto ‘in natura’, invece di limitarci a raccoglierlo in laboratorio, cosa che richiede più tempo”.

La ricerca indica che l’audio potrebbe diventare una fonte di dati più ricercata nella corsa all’addestramento dei robot con l’intelligenza artificiale. I ricercatori stanno insegnando ai robot più velocemente che mai utilizzando l’apprendimento per imitazione, mostrando loro centinaia di esempi di compiti svolti invece di codificarli a mano. Se l’audio potesse essere raccolto su larga scala utilizzando dispositivi come quello oggetto dello studio, potrebbe dare ai robot un “senso” completamente nuovo, aiutandoli ad adattarsi più rapidamente agli ambienti in cui la visibilità è limitata o non è utile.

“È possibile affermare che l’audio è la modalità più sottovalutata per il rilevamento [nei robot]”, afferma Dmitry Berenson, professore associato di robotica presso l’Università del Michigan, che non ha partecipato allo studio. Questo perché la maggior parte delle ricerche sull’addestramento dei robot a manipolare gli oggetti ha riguardato compiti industriali di pick-and-place, come lo smistamento degli oggetti nei contenitori. Questi compiti non beneficiano molto del suono, ma si affidano a sensori tattili o visivi. Ma quando i robot si estenderanno a compiti nelle case, nelle cucine e in altri ambienti, l’audio diventerà sempre più utile, dice Berenson.

Si pensi a un robot che cerca di trovare quale borsa o tasca contiene un mazzo di chiavi, il tutto con una visibilità limitata. “Forse prima ancora di toccare le chiavi, si sente un tintinnio”, dice Berenson. “Questo è un indizio che indica che le chiavi sono in quella tasca invece che in altre”.

Tuttavia, l’audio ha dei limiti. Il team sottolinea che l’audio non sarà altrettanto utile con i cosiddetti oggetti morbidi o flessibili come i vestiti, che non creano un audio utilizzabile. I robot hanno anche faticato a filtrare il rumore dei propri motori durante i compiti, poiché questo rumore non era presente nei dati di addestramento prodotti dagli esseri umani. Per risolvere il problema, i ricercatori hanno dovuto aggiungere ai set di addestramento i suoni dei robot – fruscii, ronzii e rumori degli attuatori – in modo che i robot potessero imparare a sintonizzarli.

Il prossimo passo, spiega Liu, sarà quello di vedere quanto i modelli possano migliorare con un maggior numero di dati, il che potrebbe significare l’aggiunta di altri microfoni, la raccolta di audio spaziale e l’incorporazione di microfoni in altri tipi di dispositivi di raccolta dati.