L’IA è vulnerabile a un nuovo tipo di attacco

La tecnologia dell’apprendimento per rinforzo che controlla le auto a guida autonoma dimostra di avere più punti deboli di quanto si pensasse.

di Will Douglas Heaven

Il bot di calcio si mette in posizione per tirare in porta. Invece di prepararsi alla parata, il portiere cade a terra e fa oscillare le gambe. Confuso, l’attaccante fa una piccola strana danza laterale, salta, muove le braccia e infine cade.

Non è una tattica tipica dai professionisti, ma mostra che un’intelligenza artificiale addestrata attraverso l’apprendimento per rinforzo – la tecnica alla base di IA all’avanguardia come AlphaZero e OpenAI Five – è vulnerabile agli attacchi. E ciò potrebbe avere gravi conseguenze.

Negli ultimi anni i ricercatori hanno trovato molti modi per ingannare l’IA addestrata con dati etichettati, una tecnica nota come apprendimento supervisionato. Piccole modifiche all’input di un’intelligenza artificiale, come per esempio la modifica di alcuni pixel in un’immagine, possono creare equivoci pericolosi, facendo scambiare l’immagine di un bradipo con quella di una macchina da corsa. Questi cosiddetti “attacchi antagonistici”, che ricordano le illusione ottiche, non hanno una risposta sicura.

Rispetto all’apprendimento supervisionato, l’apprendimento per rinforzo è una tecnica relativamente nuova ed è stata studiata di meno. Ma ora si scopre che è anche vulnerabile all’input falsificato. L’apprendimento per rinforzo insegna a un’intelligenza artificiale come comportarsi in situazioni diverse dandogli “premi” per aver fatto la cosa giusta. Alla fine l’IA apprende un piano d’azione, vale a dire un metodo che consente all’IA di giocare, guidare automobili o eseguire sistemi di trading automatizzati.

Nel 2017, Sandy Huang, oggi a DeepMind, e i suoi colleghi hanno esaminato un’intelligenza artificiale addestrata tramite rinforzo che stava imparando a giocare al classico videogioco Pong. Hanno dimostrato che l’aggiunta di un singolo pixel “canaglia” ai frame di input video lo porta alla sconfitta. Adam Gleave dell’Università della California, a Berkeley, ha portato gli attacchi antagonistici ad un livello più alto.

Gleave non si preoccupa molto per la maggior parte degli esempi che abbiamo visto finora. “Sono abbastanza scettico sul fatto che siano una minaccia”, egli afferma. “L’idea che un utente malintenzionato possa ingannare il nostro sistema di apprendimento automatico modificando in parte i dati non sembra realistica”.

Ma invece di ingannare un’intelligenza artificiale nel vedere qualcosa che non è davvero lì, si può cambiare il modo in cui le cose intorno ad essa agiscono. In altre parole, un’intelligenza artificiale addestrata utilizzando l’apprendimento per rinforzo può essere ingannata da comportamenti strani. Gleave e i suoi colleghi la definiscono un metodo antagonistico. È una minaccia del tutto nuova, afferma Gleave.

Perdere il controllo

In un certo senso, i metodi antagonistici sono più preoccupanti degli attacchi ai modelli di apprendimento supervisionato, poiché le politiche di apprendimento per rinforzo regolano il comportamento generale di un’IA. Se un’auto senza conducente classifica erroneamente l’input dalla sua videocamera, per esempio, potrebbe avere conseguenze su altri sensori. Sabotare il sistema di controllo dell’auto – governato da un algoritmo di apprendimento di rinforzo – potrebbe portare a un disastro.

Gleave e i suoi colleghi hanno usato l’apprendimento per rinforzo per addestrare i robot sotto forma di figure stilizzate a giocare a partite tra due giocatori e a fare incontri di sumo. I robot erano consapevoli della posizione e del movimento dei loro arti e di quelli dei loro avversari. Hanno quindi addestrato una seconda serie di robot a trovare il modo di sfruttare l’esperienza del primo gruppo, e questo secondo gruppo ha scoperto rapidamente metodi antagonistici.

Il team ha realizzato che chi vince ha imparato a battere l’avversario in modo sistematico con un allenamento che ha preso meno del 3 per cento del tempo impiegato da chi ha perso ad imparare a giocare. Chi vince non diventa un giocatore più bravo, ma esegue azioni che sconvolgono il metodo di gioco dell’avversario.

Nel calcio e nella corsa, il vincitore sta a terra. Questa posizione induce l’altro a fare lo stesso o ad agitarsi in circolo. Inoltre, chi ha perso si è comportato molto meglio quando è stato “mascherato” e quindi non poteva vedere l’avversario.

La ricerca, che sarà presentata alla International Conference on Learning Representations, che si terrà ad Addis Abeba, in Etiopia, ad aprile, mostra che metodi apparentemente efficaci possono nascondere gravi difetti. Nell’apprendimento per rinforzo si stanno valutando questi metodi in modo approfondito”, afferma Gleave.

Un modello di apprendimento supervisionato, addestrato per classificare le immagini, per esempio, viene testato su un set di dati diverso da quello su cui è stato addestrato per garantire che non abbia semplicemente memorizzato un particolare gruppo di immagini. Ma con l’apprendimento per rinforzo, i modelli sono in genere addestrati e testati nello stesso ambiente. Ciò significa che non si può mai essere sicuri di come il modello affronterà nuove situazioni.

La buona notizia è che i metodi antagonistici potrebbero essere più facili da difendere rispetto ad altri tipi di attacchi antagonistici. Quando Gleave ha introdotto delle variazioni per tenere conto dello strano comportamento di chi vinceva, gli avversari sono stati costretti a rivolgersi a trucchi più familiari, come far inciampare gli avversari. Si tratta sempre di gioco “sporco”, ma non sfrutta un problema tecnico del sistema.

Immagine: MIT Technology Review / Adam Gleave

(rp)

Related Posts
Total
0
Share