Set di dati di grandi dimensioni come ImageNet hanno potenziato gli ultimi 10 anni di visione dell’AI, ma sono difficili da produrre e contengono pregiudizi, a differenza dei set di dati generati dal computer.
di Will Douglas Heaven
La maggior parte dei sistemi di riconoscimento delle immagini viene addestrata utilizzando grandi database che contengono milioni di foto di oggetti di uso quotidiano, dai serpenti ai frullati alle scarpe. Con l’esposizione ripetuta, l’AI impara a distinguere un tipo di oggetto da un altro. Ora i ricercatori in Giappone hanno dimostrato che l’intelligenza artificiale può iniziare a imparare a riconoscere gli oggetti di uso quotidiano addestrandosi invece sui frattali generati dal computer.
È un’idea insolita, ma potrebbe aiutare a risolvere un serio problema. La generazione automatica dei dati per l’addestramento è oggi prevalente nell’apprendimento automatico. E l’utilizzo di una scorta infinita di immagini sintetiche anziché di foto estratte da Internet evita problemi con i set di dati esistenti realizzati a mano.
La fase di pre-addestramento è quella in cui un’intelligenza artificiale apprende alcune abilità di base prima di essere formata su dati più specializzati. I modelli pre-addestrati consentono a più persone di utilizzare una AI di buon livello. Invece di dover addestrare un modello da zero, possono adattarne uno esistente alle loro esigenze.
Per esempio, un sistema per la diagnosi delle scansioni mediche potrebbe prima imparare a identificare le caratteristiche visive di base, come la forma e il contorno, grazie a un periodo di formazione su un database di oggetti di uso quotidiano, come ImageNet, che contiene più di 14 milioni di foto. Quindi verrà ottimizzato su un database più piccolo di immagini mediche fino a quando non riconoscerà i segni specifici della malattia.
Il problema è che assemblare manualmente un set di dati come ImageNet richiede molto tempo e fatica. Le immagini sono in genere etichettate da crowdworker sottopagati. I set di dati potrebbero anche contenere etichette sessiste o razziste che possono influenzare un modello in modi nascosti o includere immagini di persone che non hanno dato il loro consenso. Ci sono prove che questi pregiudizi possono insinuarsi anche durante la fase di pre addestramento.
I frattali possono essere trovati in qualsiasi cosa, dagli alberi e fiori alle nuvole e alle onde. Ciò ha portato il team del National Institute of Advanced Industrial Science and Technology (AIST), del Tokyo Institute of Technology e della Tokyo Denki University a chiedersi se questi modelli potessero essere utilizzati per insegnare a un sistema automatizzato le basi del riconoscimento delle immagini, invece di usare le foto di oggetti reali.
I ricercatori hanno creato FractalDB, un numero infinito di frattali generati dal computer. Alcuni sembrano foglie, altri fiocchi di neve o gusci di lumaca. A ogni gruppo di modelli simili è stata assegnata automaticamente un’etichetta. Hanno quindi utilizzato FractalDB per pre-addestrare una rete neurale convoluzionale, un tipo di modello di apprendimento profondo comunemente utilizzato nei sistemi di riconoscimento delle immagini, prima di completare la formazione con una serie di immagini reali. Hanno scoperto che funzionava quasi come i modelli addestrati su set di dati all’avanguardia, tra cui ImageNet e Places, che contiene 2,5 milioni di immagini di scene all’aperto.
Anh Nguyen della Auburn University in Alabama, che non ha partecipato allo studio, non è convinto che FractalDB sia ancora all’altezza di ImageNet. Ha studiato come modelli astratti possano confondere i sistemi di riconoscimento delle immagini. “C’è una connessione tra questo lavoro ed esempi che ingannano le macchine”, egli dice. Ma i ricercatori giapponesi pensano che con modifiche al loro approccio, i set di dati generati dal computer come FractalDB potrebbero sostituire quelli esistenti.
I ricercatori hanno anche provato ad addestrare la loro intelligenza artificiale utilizzando altre immagini astratte, comprese quelle prodotte utilizzando il rumore di Perlin, che crea modelli maculati e le curve di Bezier, un tipo di curva utilizzata nella computer grafica. Ma i frattali hanno dato i migliori risultati. “La geometria frattale è presente nella conoscenza di base del mondo”, afferma l’autore principale Hirokatsu Kataoka dell’AIST.
Immagine di: Ms Tech / Unsplash
(rp)