• Jeremy Lwanga / Unsplash

I sistemi di controllo dell’AI girano a vuoto

La nostra comprensione dei progressi nell'apprendimento automatico è stata influenzata dagli errori nei dati dei test.

di Karen Hao 02-04-21
Secondo un nuovo studio del MIT, i 10 set di dati più citati sull’intelligenza artificiale sono pieni di errori nella classificazione e stanno distorcendo la nostra comprensione dei progressi del campo. I  dati sono la spina dorsale della ricerca sull'AI, ma alcuni sono più critici di altri. Una serie fondamentale viene utilizzata dai ricercatori per valutare i modelli di apprendimento automatico come chiave per monitorare la progressione delle capacità di intelligenza artificiale nel tempo. 

Uno dei più noti è il canonico set di dati di riconoscimento delle immagini ImageNet, che ha dato il via alla moderna rivoluzione dell'AI. C'è anche MNIST, che compila immagini di numeri scritti a mano tra 0 e 9. Altri set di dati testano modelli addestrati per riconoscere audio, testo e disegni a mano.

Negli ultimi anni, alcuni studi hanno scoperto che questi set di dati possono contenere gravi difetti. ImageNet, per esempio, contiene etichette razzista e sessiste nonché foto di volti delle persone ottenuti senza consenso. L'ultimo studio ora esamina un altro problema: molte delle classificazioni sono semplicemente sbagliate. Un fungo è etichettato come cucchiaio, una rana è etichettata come un gatto e una nota alta di Ariana Grande è etichettata come un fischio. Il set di test di ImageNet ha un tasso di errore nell'etichettatura stimato al 5,8 per cento. Nel frattempo, il set di prova per QuickDraw, una raccolta di disegni a mano, ha un tasso di errore che si attesta al 10,1 per cento.

Ciascuno dei 10 set di dati utilizzati per la valutazione dei modelli dispone di un set di dati corrispondente utilizzato per l'addestramento. I ricercatori, i laureati del MIT Curtis G. Northcutt e Anish Athalye e l'ex studente Jonas Mueller, hanno utilizzato i set di dati di addestramento per sviluppare un modello di apprendimento automatico e poi li hanno utilizzati per prevedere le etichette nei dati di test. 

Se il modello non era d'accordo con l'etichetta originale, il punto dati veniva contrassegnato per la revisione manuale. A cinque revisori umani su Amazon Mechanical Turk è stato chiesto di scegliere quale etichetta - il modello o l'originale - ritenevano fosse corretta. Se la maggior parte dei revisori umani concordava con il modello, l'etichetta originale veniva considerata un errore e quindi corretta.

I ricercatori hanno esaminato 34 modelli le cui prestazioni erano state precedentemente misurate rispetto al set di test ImageNet. Quindi hanno rimisurato ciascun modello in riferimento ai circa 1.500 esempi in cui le etichette dei dati erano errate. Hanno scoperto che i modelli che non funzionavano bene con le etichette originali errate ottenevano i migliori risultati dopo che le etichette erano state corrette. 

In particolare, i modelli più semplici sembravano andare meglio sui dati corretti rispetto ai modelli più complicati che vengono utilizzati dai giganti della tecnologia come Google per il riconoscimento delle immagini e che si presume siano i migliori sul campo. In altre parole, potremmo avere una sensazione gonfiata di quanto siano efficaci questi modelli complicati a causa di dati di test errati.

Northcutt ritiene che il settore dell'AI dovrebbe creare set di dati più puliti per la valutazione dei modelli e il monitoraggio dei progressi del campo. Raccomanda inoltre ai ricercatori di migliorare la correttezza dei propri dati altrimenti, dice, "se si ha a disposizione un set di dati rumoroso e alcuni modelli in prova da diffondere nel mondo reale, si potrebbe finire per selezionare il modello sbagliato. A tal fine, Northcutt ha reso open source il codice che ha utilizzato nel suo studio per correggere gli errori di etichetta, che secondo lui è già in uso presso alcune importanti aziende tecnologiche.

(rp)