La tecnica che insegna alle IA a giocare non riesce a insegnarli a guidare

Un nuovo approccio alla tecnica di apprendimento per rinforzo non è ancora in grado di competere con un conducente umano, ma potrebbe presto riuscirci.

di Karen Hao

L’apprendimento per rinforzo, una tecnica di apprendimento automatico che si affida a un sistema di ricompense e penalità per istruire un algoritmo di IA, può rivelarsi uno strumento efficace per insegnare alle macchine ad adattarsi a nuove circostanze.

AlphaGo di DeepMind ne ha fatto buon uso per battere il campione umano di Go senza neanche essersi confrontato prima con il suo avversario. La stessa tecnica pare persino promettente per lo sviluppo di robot in grado di operare in condizioni mutevoli.

Esistono alcuni limiti al potenziale dell’apprendimento per rinforzo. Anzitutto, una macchina facente uso di questa tecnica impiega più tempo per affinare le proprie azioni di tentativo in tentativo; può funzionare in laboratorio, magari, o quando ci si trova seduti al tavolo a giocare; non è altrettanto ideale in applicazioni quali la guida autonoma, dove un errore potrebbe rivelarsi fatale.

In risposta a questo fattore, un gruppo di ricercatori ha sviluppato soluzioni differenti per sorvolare la necessità di allestire sessioni di addestramento nel mondo reale, addestrando una macchina utilizzando i dati in un mondo simulato, ad esempio. Un’automobile può imparare a guidare partendo da dati del traffico presentati all’interno di una replica digitale e sicura del mondo fisico, così da superare i passaggi più impegnativi senza mettere a rischio l’incolumità delle persone.

Anche questa soluzione, però, presenta alcune criticità. Una macchina sottoposta a questo tipo di addestramento potrebbe comunque commettere gravi errori di fronte a situazioni non rappresentate nella raccolta di dati impiegati. In un caso, ricercatori della New York University hanno scoperto che la loro automobile a guida autonoma aveva imparato a effettuare svolte a 90° senza curarsi del traffico nel senso di marcia opposto (il tutto, fortunatamente, all’interno di una simulazione) perché il dataset utilizzato non illustrava scenari del genere. È inutile sottolineare i rischi che manovre simili comporterebbero per i passeggeri a bordo di un’automobile a guida autonoma o, diciamo, un robot chirurgo.

Lo stesso team della NYU, assieme al direttore delle ricerche IA di Facebook, Yann Lecun, sta proponendo un nuovo metodo che potrebbe superare questo problema. Oltre a penalizzare o ricompensare una IA di guida autonoma per le sue manovre, i ricercatori l’hanno penalizzata per essersi cimentata in scenari per i quali non disponeva di dati a sufficienza.

In sostanza, questo approccio costringe un’automobile a procedere con cautela, spiega Mikael Henaff, uno degli autori dello studio, piuttosto che effettuare svolte ed altre manovre improvvisate che la gettino in uno scenario sconosciuto.

Messo alla prova, il nuovo approccio ha migliorato l’abilità dell’auto di navigare in sicurezza nel traffico intenso. Il sistema non è ancora in grado di competere con un essere umano al volante, per cui resta ancora del lavoro da svolgere.

(MO)

Related Posts
Total
0
Share