L’AI sta diventando più intelligente

I modelli lingustico-visivi stanno imparando a generare immagini a partire dalle didascalie, a dimostrazione del fatto che stanno migliorando nella comprensione del nostro mondo.

di Karen Hao

Di tutti i modelli di intelligenza artificiale al mondo, il GPT-3 di OpenAI ha attirato maggiormente l’immaginazione del pubblico. Può produrre poesie, racconti e canzoni a partire da un semplice spunto ed è stato dimostrato che induce le persone a pensare che dietro le sue “creazioni” ci sia un essere umano. Ma non si sta ancora parlando di vera intelligenza.

Tuttavia, i ricercatori ritengono che le tecniche utilizzate per creare GPT-3 potrebbero contenere il segreto per un’AI più avanzata. Il modello di linguaggio è stato addestrato su un’enorme quantità di dati di testo: se fosse addestrato sia sul testo che sulle immagini?

Ora una nuova ricerca dell’Allen Institute for Artificial Intelligence, AI2, ha sviluppato questa idea. I ricercatori hanno ideato un nuovo modello di testo e immagine, altrimenti noto come modello di linguaggio visivo, in grado di generare immagini con una didascalia. Le immagini sembrano inquietanti e bizzarre, niente a che vedere con i deepfake iperrealistici generati dai GAN, ma potrebbero indicare un percorso promettente per ottenere un’intelligenza più generalizzabile e forse anche robot più intelligenti.

Riempire gli spazi vuoti

GPT-3 fa parte di un gruppo di modelli noti come “trasformatori”, che sono diventati popolari per la prima volta con il successo di BERT di Google. Prima di BERT, i modelli linguistici erano piuttosto scadenti. Avevano un potere predittivo sufficiente per essere utili per applicazioni come il completamento automatico, ma non abbastanza per generare una frase lunga che seguisse le regole grammaticali e il buon senso.

BERT ha cambiato la situazione introducendo una nuova tecnica chiamata “mascheramento”. Si tratta di nascondere diverse parole in una frase e chiedere al modello di riempire lo spazio vuoto. Per esempio:

* La donna è andata al ___ per allenarsi.
* Hanno comprato un ___ di pane per fare i panini.

L’idea è che se il modello è costretto a fare questi esercizi, spesso milioni di volte, inizia a scoprire schemi nel modo in cui le parole vengono assemblate in frasi e le frasi in paragrafi. Di conseguenza, può generare e interpretare meglio il testo, avvicinandolo alla comprensione del significato del linguaggio. (Google ora utilizza BERT per fornire risultati di ricerca più pertinenti nel suo motore di ricerca). Dopo che il mascheramento ha dimostrato la sua efficacia, i ricercatori hanno cercato di applicarlo a modelli di linguaggio visivo nascondendo le parole nei sottotitoli (si veda immagine 1).

Immagine 1. Una ____ si trova su un terreno sterrato vicino a un albero.AI2

Questa volta il modello potrebbe guardare sia le parole circostanti sia il contenuto dell’immagine per riempire lo spazio vuoto. Attraverso milioni di ripetizioni, potrebbe quindi scoprire non solo gli schemi tra le parole, ma anche le relazioni tra le parole e gli elementi in ciascuna immagine. Il risultato sono modelli in grado di mettere in relazione le descrizioni del testo con i riferimenti visivi, proprio come i bambini possono creare collegamenti tra le parole che imparano e le cose che vedono. 

Immagine 2. Un modello in linguaggio visivo sarebbe in grado di sottotitolare questa foto:John Torcasio / Unsplash

I modelli possono guardare la foto (si veda immagine 2), per esempio, e scrivere una didascalia sensata come “Donne che giocano a hockey su prato”. Oppure possono rispondere a domande come “Qual è il colore della palla?” collegando la parola “palla” con l’oggetto circolare nell’immagine. 

Un’immagine vale più di mille parole

Ma i ricercatori di AI2 volevano sapere se questi modelli avevano effettivamente sviluppato una comprensione concettuale del mondo visivo. Un bambino che ha imparato la parola per un oggetto può non solo evocare la parola per identificare l’oggetto, ma anche disegnarlo quando richiesto con la parola, anche se l’oggetto stesso non è presente. Quindi i ricercatori hanno chiesto ai modelli di fare lo stesso: generare immagini dalle didascalie. Ma quello che si è visto è un flusso di pixel senza senso (si veda immagine 3)

Immagine 3. E’ un uccello? E’ Un aereo? No. Si tratta di qualcosa di incomprensibile generato dall’AI.AI2

In effetti, è logico: trasformare il testo in immagini è molto più difficile del contrario. Una didascalia non specifica tutto ciò che è contenuto in un’immagine, afferma Ani Kembhavi, che guida il team di visione artificiale di AI2. Quindi un modello deve attingere a molto buon senso riguardo al mondo per completare i dettagli. Se viene chiesto di disegnare “una giraffa che cammina su una strada”, per esempio, deve anche dedurre che la strada è più facile che sia grigia e non rosa acceso e si trovi vicino alla campagna e non sull’oceano, sebbene nessuna di queste informazioni sia resa esplicita.

Quindi Kembhavi ei suoi colleghi Jaemin Cho, Jiasen Lu e Hannaneh Hajishirzi hanno deciso di vedere se potevano insegnare a un modello questa forma di conoscenza visiva implicita modificando il loro approccio al mascheramento. Invece di addestrare il modello solo a prevedere le parole mascherate nelle didascalie delle foto corrispondenti, lo hanno anche addestrato a prevedere i pixel mascherati nelle foto sulla base delle didascalie corrispondenti.

Le immagini finali generate dal modello non sono esattamente realistiche (si veda immagine 4). Ma non è questo il punto. L’aspetto significativo è che contengono i giusti concetti visivi di alto livello: l’equivalente in termini di AI di un bambino che disegna una figura stilizzata per rappresentare un essere umano. (Per provare il modello si può cliccare questo link). 

Immagine 4.AI2

La capacità dei modelli di linguaggio visivo di realizzare questo tipo di generazione di immagini rappresenta un importante passo avanti nella ricerca sull’IA e indica che il modello è effettivamente capace di un certo livello di astrazione, un’abilità fondamentale per comprendere il mondo.

A lungo termine, ciò potrebbe avere implicazioni per la robotica. Migliore è la comprensione degli aspetti visivi e l’uso del linguaggio per comunicare su di essi, più complessi saranno i compiti che l’AI sarà in grado di svolgere. A breve termine, afferma Hajishirzi, questo tipo di visualizzazione potrebbe anche aiutare i ricercatori a capire meglio la “scatola nera”, vale a dire cosa stanno imparando i modelli di intelligenza artificiale.

In futuro, il team prevede nuove sperimentazioni per migliorare la qualità della generazione di immagini ed espandere il vocabolario visivo e linguistico del modello per includere più argomenti, oggetti e aggettivi. “La generazione di immagini è stata davvero un pezzo mancante del puzzle”, afferma Lu. “Colmando questa lacuna, possiamo fare in modo che il modello sia in grado di avere rappresentazioni più efficaci del mondo”.

Immagine:Allen Institute for AI

(rp)

Related Posts
Total
0
Share