L’AI integra il visivo con il testuale

Alcuni ricercatori stanno insegnando ai modelli linguistici di grandi dimensioni a “vedere” per riconoscere gli oggetti e definire i diversi contesti.

di Charlotte Jee

E’ risaputo che GPT-3 rappresenta un salto in avanti dell’AI, ma con alcuni punti deboliSe gli si chiede il colore della pecorarisponderà “nera” allo stesso modo di “bianca”, in quanto fa riferimento alla espressione “pecora nera”. Questo è il problema con i modelli linguistici: sono addestrati solo sul testo e mancano di buon senso. Ora i ricercatori dell’Università del North Carolina, a Chapel Hill, hanno progettato una nuova tecnica per cambiare questa situazione. La chiamano “vokenization” e offre a modelli linguistici come GPT-3 la capacità di “vedere”.

Non è la prima volta che le persone cercano di combinare modelli linguistici con la visione artificiale. Si tratta in realtà di un’area in rapida crescita della ricerca sull’AI. L’idea è che entrambi i tipi di intelligenza artificiale abbiano punti di forza diversi. I modelli linguistici come GPT-3 vengono addestrati attraverso l’apprendimento non supervisionato, che non richiede l’etichettatura manuale dei dati, rendendo facile portarli su grandi dimensioni. 

I modelli di immagine come i sistemi di riconoscimento degli oggetti, al contrario, imparano più direttamente dalla realtà. In altre parole, la loro comprensione non si basa sul tipo di astrazione del mondo fornita dal testo. Possono “vedere” dalle immagini delle pecore che sono in realtà bianche. I modelli di intelligenza artificiale in grado di analizzare sia il linguaggio che l’input visivo hanno anche usi molto pratici. Se vogliamo costruire assistenti robotici, per esempio, hanno bisogno della visione artificiale per navigare nel mondo e del linguaggio per comunicare con gli umani.

Ma combinare entrambi i tipi di intelligenza artificiale è più facile a dirsi che a farsi. Non è così semplice come mettere insieme un modello di linguaggio esistente con un sistema di riconoscimento degli oggetti. Richiede l’addestramento di un nuovo modello da zero con un set di dati che include testo e immagini, altrimenti noto come set di dati in linguaggio visivo.

L’approccio più comune per formare un tale set di dati è compilare una raccolta di immagini con didascalie descrittive. Un’immagine come quella di lato (si veda, Il gatto in valigia), per esempio, sarebbe intitolata “Un gatto arancione è accovacciato nella valigia pronto per il viaggio”. Ciò differisce dai tipici set di dati di immagini, che etichetterebbero la stessa immagine con il solo nome di”gatto”. Un set di dati in linguaggio visivo può quindi insegnare a un modello di intelligenza artificiale non solo come riconoscere gli oggetti, ma come si relazionano e agiscono l’uno sull’altro, utilizzando verbi e preposizioni.

Il gatto in valigia.

Ma un simile processo di gestione dei dati richiederebbe un’eternità. Questo è il motivo per cui i set di dati in linguaggio visivo esistenti sono così esigui. Un popolare set di dati di solo testo come Wikipedia in inglese (che in effetti include quasi tutte le voci di Wikipedia in lingua inglese) potrebbe contenere quasi 3 miliardi di parole. Un set di dati in linguaggio visivo come Microsoft Common Objects in Context o MS COCO, ne contiene solo 7 milioni. Semplicemente non sono dati sufficienti per addestrare un modello di AI per qualcosa di utile.

“Vokenization” aggira questo problema, utilizzando metodi di apprendimento non supervisionati per portare la piccola quantità di dati in MS COCO alle dimensioni di Wikipedia in inglese. Il modello del linguaggio visivo risultante supera i modelli all’avanguardia in alcuni dei test più difficili utilizzati oggi per valutare la comprensione del linguaggio AI.

“Non si supera lo stato dell’arte in questi test andando avanti a tentativi”, afferma Thomas Wolf, cofondatore e responsabile scientifico della startup di elaborazione del linguaggio naturale Hugging Face, che non ha partecipato alla ricerca.

Cosa diavolo è un “voken”? Nel linguaggio dell’AI, le parole utilizzate per addestrare i modelli linguistici sono note come token. Quindi i ricercatori dell’UNC hanno deciso di chiamare voken l’immagine associata a ciascun token nel loro modello di linguaggio visivo. Vokenizer è ciò che chiamano l’algoritmo che accoppia i vokens a ogni token e la vokenization rappresenta l’intero processo.

Il punto non è solo mostrare quanto i ricercatori di intelligenza artificiale adorino inventare parole, ma valorizzare l’idea di base dietro la vokenization. Invece di iniziare con un set di dati di immagini e scrivere manualmente frasi da utilizzare come didascalie – un processo molto lento – i ricercatori dell’UNC hanno iniziato con un set di dati linguistici e hanno utilizzato l’apprendimento senza supervisione per abbinare ogni parola con un’immagine pertinente. Questo è un modo di procedere molto più rapido. La tecnica di apprendimento senza supervisione è al centro dello studio.

Come trovare un’immagine pertinente per ogni parola

GPT-3 fa parte di una famiglia di modelli linguistici noti come trasformatori, che hanno rappresentato un importante passo avanti nell’applicare l’apprendimento senza supervisione, introdotto nel 2017, all’elaborazione del linguaggio naturale. I trasformatori apprendono i modelli del linguaggio umano osservando come sono utilizzate le parole nel contesto e quindi creando una rappresentazione matematica di ogni parola, nota come “incorporamento di parole”, basata su quel contesto. L’incorporamento della parola “gatto” potrebbe mostrare, per esempio, che è spesso usata in vicinanza delle parole “miao” e “arancione”, ma molto di meno intorno alle parole “corteccia” o “blu”.

Questo è il modo in cui i trasformatori approssimano il significato delle parole e come GPT-3 può scrivere frasi simili a quelle umane. C’è una tecnica parallela che può essere utilizzata anche per le immagini. Invece di eseguire la scansione del testo per i modelli di utilizzo delle parole, esegue la scansione delle immagini per i modelli visivi. Tabula la frequenza con cui un gatto, per esempio, appare su un letto rispetto a un albero e crea un “gatto” incorporando queste informazioni contestuali.

L’intuizione dei ricercatori della UNC è stata capire che avrebbero dovuto utilizzare entrambe le tecniche di incorporamento su MS COCO. Hanno convertito le immagini in incorporamenti visivi e le didascalie in incorporamenti di parole. L’aspetto veramente interessante di questi incorporamenti è che possono essere rappresentati graficamente in uno spazio tridimensionale e vedere come sono correlati tra loro. Gli incorporamenti visivi che sono strettamente correlati agli incorporamenti di parole appariranno più vicini nel grafico. In altre parole, l’incorporamento visivo del gatto dovrebbe (in teoria) sovrapporsi all’incorporamento testuale del gatto. 

Immagine 2: “Ecco il suo contatto”

Una volta che gli incorporamenti sono stati tutti rappresentati graficamente, confrontati e correlati tra loro, è facile iniziare a far corrispondere le immagini (vokens) con le parole (token). E, poiché le immagini e le parole vengono abbinate in base ai loro incorporamenti, la loro associazione si basa anche sul contesto. Questo modo di procedere è utile quando una parola può avere significati completamente diversi. La tecnica lo gestisce con successo trovando voken differenti per ogni significato della parola.

Immagine 3: “Alcuni gatti amano il contatto umano”.

Prendiamo il caso delle immagini (2 e 3) in cui compaiono le seguenti frasi:

Ecco il suo contatto.
Alcuni gatti amano il contatto umano.

Il token è la parola “contatto” in entrambi gli esempi. Ma nella prima frase, il contesto suggerisce che la parola si riferisce all’icona del contatto. Nella seconda frase, il contesto suggerisce che la parola si riferisce al tatto, quindi il voken mostra un gatto che viene accarezzato.

I ricercatori hanno utilizzato gli incorporamenti visivi e di parole che hanno creato con MS COCO per addestrare il loro algoritmo produttore di voken. Una volta addestrato, il vokenizer è stato in grado di trovare le voci per i token nella Wikipedia in inglese. Non è perfetto. L’algoritmo ha trovato solo le voci vocali per circa il 40 per cento dei token, ma stiamo parlando del 40 per cento di un set di dati con quasi 3 miliardi di parole.

Con questo nuovo set di dati, i ricercatori hanno riqualificato un modello di linguaggio noto come BERT, un trasformatore open source sviluppato da Google che precede GPT-3. Hanno quindi testato il nuovo e migliorato BERT su sei diversi test di comprensione linguistica, tra cui SQuAD, Stanford Question Answering Dataset, che chiede ai modelli di rispondere a domande di comprensione della lettura su una serie di articoli, e SWAG, che cerca di mettere alla prova i modelli con sottigliezze della lingua inglese per sondare se si limitano a imitare o memorizzare. Il BERT implementato ha ottenuto i risultati migliori.

I ricercatori, Hao Tan, uno studente di dottorato, e Mohit Bansal, il suo consulente, presenteranno la loro nuova tecnica di vokenization tra due settimane alla Conference on Empirical Methods in Natural Language Processing. Anche se il lavoro è ancora agli inizi, Wolf lo vede come un’importante svolta concettuale per far funzionare l’apprendimento senza supervisione per i modelli di linguaggio visivo.

“Nella elaborazione del linguaggio naturale si è verificato questo enorme passo avanti più di due anni fa e il settore è andato avanti rispetto a tutti gli altri campi dell’AI”, egli spiega. “Ma abbiamo questo problema a collegare il visivo al testuale all’uditivo. Quindi è come un robot che è solo in grado di parlare, ma non può vedere né sentire. Questa nuova tecnica mostra la direzione da seguire”.

Immagine: Ms Tech / Pexels

(rp)

Related Posts
Total
0
Share