Skip to main content
SARAH ROGERS/MITTR | GETTY

Waabi afferma che il suo nuovo modello è in grado di anticipare i movimenti di pedoni, camion e ciclisti utilizzando i dati lidar.

L’azienda di guida autonoma Waabi sta utilizzando un modello di intelligenza artificiale generativa per aiutare a prevedere il movimento dei veicoli, ha annunciato oggi.

Il nuovo sistema, chiamato Copilot4D, è stato addestrato sulla base di moltissimi dati provenienti da sensori lidar, che utilizzano la luce per percepire la distanza degli oggetti. Se si richiede al modello una situazione, come quella di un guidatore che si immette in autostrada ad alta velocità, il modello prevede come si muoveranno i veicoli circostanti e genera una rappresentazione lidar da 5 a 10 secondi nel futuro (magari mostrando un tamponamento). L’annuncio di oggi riguarda la versione iniziale di Copilot4D, ma l’amministratore delegato di Waabi, Raquel Urtasun, afferma che una versione più avanzata e interpretabile viene impiegata nella flotta di prova di camion autonomi di Waabi in Texas e aiuta il software di guida a decidere come reagire.

Mentre la guida autonoma si affida da tempo all’apprendimento automatico per pianificare i percorsi e rilevare gli oggetti, alcune aziende e ricercatori scommettono ora che l’IA generativa – modelli che raccolgono i dati dell’ambiente circostante e generano previsioni – contribuirà a portare l’autonomia a uno stadio successivo. Wayve, un concorrente di Waabi, ha rilasciato l’anno scorso un modello comparabile che viene addestrato sui video raccolti dai suoi veicoli.

Il modello di Waabi funziona in modo simile ai generatori di immagini o video come DALL-E e Sora di OpenAI. Prende le nuvole di punti dei dati lidar, che visualizzano una mappa 3D dell’ambiente circostante l’auto, e le suddivide in pezzi, come i generatori di immagini suddividono le foto in pixel. Sulla base dei dati di addestramento, Copilot4D prevede quindi come si muoveranno tutti i punti dei dati lidar. Questa operazione continua gli consente di generare previsioni a 5-10 secondi nel futuro.

Waabi è una delle poche aziende di guida autonoma, tra cui le concorrenti Wayve e Ghost, che descrivono il loro approccio come “AI-first“. Per Urtasun, ciò significa progettare un sistema che impari dai dati, piuttosto che insegnare le reazioni a situazioni specifiche. La coorte scommette che i loro metodi potrebbero richiedere meno ore di test su strada delle auto a guida autonoma, un argomento molto sentito dopo l’incidente dell’ottobre 2023 in cui un robotaxi Cruise ha trascinato un pedone a San Francisco.

Waabi si differenzia dai suoi concorrenti per la costruzione di un modello generativo per i lidar, piuttosto che per le telecamere.

“Se si vuole essere un giocatore di livello 4, il lidar è un must”, afferma Urtasun, riferendosi al livello di automazione in cui l’auto non richiede l’attenzione di un umano per guidare in sicurezza. Le telecamere fanno un buon lavoro nel mostrare ciò che l’auto vede, ma non sono altrettanto abili nel misurare le distanze o nel comprendere la geometria dell’ambiente circostante.

Sebbene il modello di Waabi sia in grado di generare video che mostrano ciò che un’auto vedrà attraverso i suoi sensori lidar, questi video non saranno utilizzati come addestramento nel simulatore di guida che l’azienda utilizza per costruire e testare il suo modello di guida. Questo per garantire che eventuali allucinazioni derivanti da Copilot4D non vengano insegnate nel simulatore.

La tecnologia di base non è nuova, dice Bernard Adam Lange, uno studente di dottorato a Stanford che ha costruito e studiato modelli simili, ma è la prima volta che vede un modello generativo lidar uscire dai confini di un laboratorio di ricerca per essere scalato per uso commerciale. Un modello del genere aiuterebbe in generale a rendere il “cervello” di qualsiasi veicolo autonomo in grado di ragionare in modo più rapido e accurato.

“È la scala che è trasformativa”, afferma. “La speranza è che questi modelli possano essere utilizzati in attività a valle”, come il rilevamento di oggetti e la previsione del prossimo spostamento di persone o cose.

Copilot4D può stimare solo fino a un certo punto del futuro, e i modelli di previsione del movimento in generale peggiorano quanto più gli si chiede di proiettarsi in avanti. Urtasun sostiene che per la maggior parte delle decisioni di guida il modello deve immaginare ciò che accade da 5 a 10 secondi prima, anche se i test di riferimento evidenziati da Waabi si basano su previsioni di 3 secondi. Chris Gerdes, co-direttore del Center for Automotive Research di Stanford, sostiene che questo parametro sarà fondamentale per determinare l’utilità del modello nel prendere decisioni.

“Se le previsioni a 5 secondi sono solide, ma quelle a 10 secondi sono appena utilizzabili, ci sono diverse situazioni in cui questo non sarebbe sufficiente su strada”, spiega.

Il nuovo modello fa riemergere una questione che attraversa il mondo dell’intelligenza artificiale generativa: se rendere o meno i modelli open-source. La pubblicazione di Copilot4D consentirebbe ai ricercatori accademici, che hanno difficoltà ad accedere a grandi insiemi di dati, di sbirciare sotto il cofano come è stato realizzato, di valutare in modo indipendente la sicurezza e di far progredire potenzialmente il settore. Lo stesso avverrebbe per i concorrenti di Waabi. Waabi ha pubblicato un documento che illustra la creazione del modello, ma non ha rilasciato il codice e Urtasun non sa se lo farà. “Vogliamo che anche il mondo accademico abbia voce in capitolo nel futuro della guida autonoma”, afferma l’autrice, aggiungendo che i modelli open-source sono più affidabili. “Ma dobbiamo anche essere un po’ prudenti nello sviluppo della nostra tecnologia, per non svelare tutto ai nostri concorrenti”.