L’addestramento dell’AI è ancora imperfetto

La tecnica utilizzata per costruire la maggior parte dei modelli di apprendimento automatico che utilizziamo oggi non è in grado di stabilire se questi sistemi funzioneranno o meno nel mondo reale, e questo è un problema.

di Will Douglas Heaven

Non è un segreto che i modelli di machine learning sintonizzati e ottimizzati per prestazioni quasi perfette in laboratorio spesso falliscono in contesti reali. Questa situazione è in genere attribuita a una mancata corrispondenza tra i dati su cui l’AI è stata addestrata e testata e i dati che incontra nel mondo, un problema noto come spostamento dei dati. Per esempio, un’intelligenza artificiale addestrata per individuare i segni di malattia in immagini mediche di alta qualità si troverà di fronte a immagini sfocate catturate da una fotocamera economica in una clinica in piena attività. 

Ora un gruppo di 40 ricercatori di sette diversi team di Google ha identificato un’altra delle principali cause di fallimento dei modelli di apprendimento automatico. La cosiddetta “sottospecificazione” potrebbe essere un problema ancora più grande dello spostamento dei dati. “Chiediamo ai modelli di machine learning più di quanto siano in grado di garantire con il nostro approccio attuale”, afferma Alex D’Amour, che ha guidato lo studio.

La sottospecificazione è un problema noto nelle statistiche, dove gli effetti osservati possono avere molte possibili cause. D’Amour, che ha una formazione nello studio del ragionamento causale, voleva sapere perché i suoi modelli di apprendimento automatico spesso fallivano nella pratica. Si chiedeva se anche qui il problema fosse la sottospecificazione. D’Amour si è presto reso conto che molti dei suoi colleghi notavano lo stesso problema nei loro modelli. “In realtà è un fenomeno che accade ovunque”, egli dice.

L’indagine iniziale di D’Amour è stata ripresa da decine di ricercatori di Google che hanno finito per esaminare una gamma di diverse applicazioni di intelligenza artificiale, dal riconoscimento delle immagini all’elaborazione del linguaggio naturale (NLP) alla previsione delle malattie. In tutti questi casi hanno scoperto che la sottospecificazione era la causa delle scarse prestazioni. Il problema sta nel modo in cui i modelli di apprendimento automatico vengono addestrati e testati e non esiste una soluzione facile.

Il documento cambia completamento il quadro della ricerca, afferma Brandon Rohrer, un esperto di apprendimento automatico presso iRobot, che in precedenza ha lavorato per Facebook e Microsoft e non è stato coinvolto nel lavoro.

Uguale ma diverso

Per capire esattamente cosa sta succedendo, è meglio tornare un attimo indietro. In parole povere, la creazione di un modello di apprendimento automatico implica l’addestramento su un gran numero di esempi e quindi il test dell’AI su un gruppo di esempi simili. Se il modello supera il test, il gioco è fatto.

I ricercatori di Google sostengono che la barra è troppo bassa. Il processo di addestramento può produrre molti modelli diversi che superano il test ma, e questa è la parte cruciale, ma differiscono tra loro in forme arbitrarie, a seconda di aspetti quali i valori casuali dati ai nodi in una rete neurale prima dell’inizio dell’addestramento, il modo in cui i dati di addestramento vengono selezionati o rappresentati, il numero di esecuzioni dei compiti di addestramento e così via.

Queste piccole differenze, spesso casuali, vengono generalmente trascurate se non influenzano il modo in cui un modello si comporta nel test, ma si è scoperto che possono portare a enormi variazioni nelle prestazioni nel mondo reale. In altre parole, il processo utilizzato per costruire la maggior parte dei modelli di machine learning oggi non è in grado di dire quali modelli funzioneranno nel mondo reale e quali no.

Non è la stessa cosa dello spostamento dei dati, in cui l’addestramento non riesce a produrre un buon modello perché i dati di addestramento non corrispondono agli esempi del mondo reale. La sotto specificazione significa qualcosa di diverso: anche se un programma di addestramento può produrre un buon modello, potrebbe comunque dare vita a uno cattivo perché non conosce la differenza. E nemmeno noi.

I ricercatori hanno esaminato l’impatto della sottospecificazione su una serie di applicazioni diverse. In ogni caso hanno utilizzato gli stessi schemi di formazione per produrre più modelli di apprendimento automatico e quindi hanno eseguito tali modelli attraverso stress test progettati per evidenziare differenze specifiche nelle loro prestazioni.

Per esempio, i ricercatori hanno addestrato 50 versioni di un modello di riconoscimento delle immagini su ImageNet, un set di dati di immagini di oggetti di uso quotidiano. L’unica differenza tra le sessioni di allenamento erano i valori casuali assegnati alla rete neurale all’inizio. Eppure, nonostante tutti i 50 modelli abbiano ottenuto più o meno lo stesso punteggio nel test di addestramento, suggerendo che erano ugualmente accurati, le loro prestazioni sono variate notevolmente durante lo stress test.

Lo stress test ha utilizzato ImageNet-C, un set di dati di immagini di ImageNet che sono state pixelate o la cui luminosità e contrasto è stata alterata, e ObjectNet, un set di dati di immagini di oggetti di uso quotidiano in pose insolite, come sedie e teiere capovolte e magliette appese a ganci. Una parte dei 50 modelli si sono comportati bene con le immagini pixelate, altri con le pose insolite; alcuni hanno fatto molto meglio nel complesso di altri. Ma per quanto riguarda il processo di formazione standard hanno avuto le stesse prestazioni.

I ricercatori hanno condotto esperimenti simili con due diversi sistemi di NLP e tre AI mediche per prevedere le malattie degli occhi dalle scansioni retiniche, il cancro dalle lesioni cutanee e l’insufficienza renale dalle cartelle dei pazienti. Ogni sistema ha avuto lo stesso problema: modelli che avrebbero dovuto possedere lo stesso livello di accuratezza se testati con dati del mondo reale avevano prestazioni diverse.

Potrebbe essere necessario ripensare al modo in cui valutiamo le reti neurali, afferma Rohrer. “Il problema sono i presupposti da cui partiamo”. D’Amour è d’accordo. “La cosa più importante e immediata è che dobbiamo fare molti più test”, egli spiega. Tuttavia, non sarà facile perché gli stress test sono stati adattati specificamente a ciascuna attività, utilizzando dati presi dal mondo reale o dati che imitavano il mondo reale che non sono disponibili in grandi quantità.

Alcuni stress test sono anche in contrasto tra loro: i modelli che erano bravi a riconoscere le immagini pixelate avevano spesso cattive prestazioni nel riconoscimento dele immagini ad alto contrasto, per esempio. Potrebbe non essere sempre possibile addestrare un singolo modello che superi tutti gli stress test. 

La scelta è multipla

Un’opzione è progettare una fase aggiuntiva al processo di addestramento e test, in cui vengono prodotti molti modelli contemporaneamente invece di uno solo. Questi modelli concorrenti possono quindi essere nuovamente testati su attività specifiche del mondo reale per selezionare quello migliore per il lavoro.

Il lavoro da fare è molto. Ma per un’azienda come Google, che costruisce e distribuisce grandi modelli, potrebbe valerne la pena, afferma Yannic Kilcher, ricercatore di machine learning all’ETH di Zurigo. Google potrebbe offrire 50 diverse versioni di un modello di NLP e gli sviluppatori di applicazioni potrebbero scegliere quella che si adatta meglio alle loro esigenze, egli dice.

D’Amour e i suoi colleghi non hanno ancora una soluzione, ma stanno esplorando modi per implementare il processo di formazione. “Dobbiamo migliorare nello specificare esattamente quali sono i requisiti per i nostri modelli”, egli afferma. “perché spesso ciò che finisce per accadere è che scopriamo questi requisiti solo dopo che il modello ha fallito nel mondo”.

Ottenere una soluzione è fondamentale se l’intelligenza artificiale vuole avere all’esterno lo stesso impatto che ha all’interno dei laboratori. “Quando l’AI ha prestazioni inferiori nel mondo reale, rende le persone meno disposte a volerla utilizzare. Dobbiamo riconquistare la loro fiducia”, conclude la coautrice Katherine Heller, che lavora per Google sull’intelligenza artificiale in campo sanitario.

Immagine di: Getty

(rp)

Related Posts
Total
0
Share