L'AI del futuro è multisensoriale

A imitazione dell'intelligenza umana, lo sviluppo di quella artificiale sta privilegiando la combinazione dei cinque sensi e delle abilità linguistiche. 

di Karen Hao 08-03-21
Alla fine del 2012, gli scienziati dell'AI hanno capito per la prima volta come mettere le reti neurali in grado di “vedere”, dimostrando che il software progettato per imitare il funzionamento del cervello umano poteva migliorare notevolmente i sistemi di visione artificiale esistenti. Da allora le reti neurali imitano anche il modo in cui ragioniamo, ascoltiamo, parliamo e scriviamo.

Ma anche se simile a quella umana nel raggiungimento di un compito specifico, l’intelligenza artificiale non ha ancora raggiunto la flessibilità del cervello umano. Noi possiamo apprendere abilità in un contesto e applicarle a un altro mentre AlphaGo, l'algoritmo di gioco di DeepMind che batte i migliori maestri di Go del mondo, non è in grado di estendere le sue conoscenze ad altri campi. Gli algoritmi di apprendimento profondo, in altre parole, sono abili nel cogliere schemi, ma non possono capire e adattarsi a un mondo che cambia.

I ricercatori hanno molte ipotesi su come superare questo problema, ma una prevale sulle altre. I bambini imparano a conoscere il mondo percependolo e parlandone. La combinazione sembra fondamentale. Quando i bambini iniziano ad associare le parole a immagini, suoni e altre informazioni sensoriali, sono in grado di descrivere fenomeni e dinamiche sempre più complicati, separare ciò che è causale da ciò che riflette solo una semplice correlazione e costruire un modello sofisticato del mondo. Il modello li aiuta quindi a navigare in ambienti sconosciuti e a contestualizzare nuove conoscenze ed esperienze.

I sistemi di intelligenza artificiale, d'altra parte, sono progettati per fare solo una di queste cose alla volta. Gli algoritmi di visione artificiale e riconoscimento audio possono percepire le cose, ma non possono usare il linguaggio per descriverle. Un modello in linguaggio naturale può manipolare le parole, ma il loro significato è staccato da qualsiasi realtà sensoriale. Se i sensi e il linguaggio fossero combinati per dare a un’intelligenza artificiale un modo più simile a quello umano per raccogliere ed elaborare nuove informazioni, si svilupperebbe qualcosa come una comprensione del mondo?

La speranza è che questi sistemi “multimodali”, con accesso alle “modalità” sensoriali e linguistiche dell'intelligenza umana, diano origine a un tipo di AI più avanzata che possa adattarsi più facilmente a nuove situazioni o problemi. Tali algoritmi potrebbero quindi aiutarci ad affrontare problemi più complessi o essere trasferiti in robot in grado di comunicare e collaborare con noi nella nostra vita quotidiana.

Nuovi progressi negli algoritmi di elaborazione del linguaggio come GPT-3 di OpenAI hanno aiutato. I ricercatori ora capiscono come replicare la manipolazione del linguaggio abbastanza bene da migliorare la sua combinazione con le capacità sensoriali. Per cominciare, stanno lavorando sulla visione artificiale. I risultati sono semplici modelli bimodali o AI in linguaggio visivo.

Nell'ultimo anno, ci sono stati diversi risultati entusiasmanti in questo settore. A settembre, i ricercatori dell'Allen Institute for Artificial Intelligence, AI2, hanno creato un modello in grado di generare un’immagine da una didascalia di testo, dimostrando la capacità dell'algoritmo di associare le parole alle informazioni visive. A novembre, i ricercatori dell'Università della Carolina del Nord, a Chapel Hill, hanno sviluppato un metodo che incorpora le immagini nei modelli linguistici esistenti, il che ha potenziato la comprensione della lettura dei modelli.

OpenAI ha quindi utilizzato queste idee per estendere GPT-3. All'inizio del 2021, il laboratorio ha rilasciato due modelli in linguaggio visivo. Uno collega gli oggetti di un'immagine alle parole che li descrivono in una didascalia. L'altro genera immagini basate su una combinazione dei concetti che ha appreso. Si può suggerire, per esempio, di dipingere “un capibara in un campo all'alba". Anche se potrebbe non aver mai visto il roditore prima, L’AI è in grado di abbinare ciò che sa di dipinti, capibara, campi e albe per proporre decine di esempi.

Sistemi multimodali più sofisticati rmiglioreranno anche gli assistenti robotici. L'attuale generazione di robot basati sull'intelligenza artificiale utilizza principalmente dati visivi per navigare e interagire con l'ambiente circostante. È utile per completare attività semplici in ambienti limitati, come l'evasione degli ordini in un magazzino. Ma laboratori come AI2 stanno lavorando per aggiungere linguaggio e incorporare più input sensoriali, come dati audio e tattili, in modo che le macchine possano comprendere i comandi ed eseguire operazioni più complesse, come aprire una porta quando qualcuno bussa.

A lungo termine, la multimodalità potrebbe aiutare a superare alcuni dei maggiori limiti dell'AI. Gli esperti sostengono, per esempio, che la sua incapacità di capire il mondo è anche il motivo per cui può facilmente fallire o essere ingannata (Un'immagine può essere alterata in un modo che è impercettibile per gli esseri umani, ma fa sì che un'AI la identifichi come qualcosa di completamente diverso).

Il raggiungimento di un'intelligenza più flessibile non sbloccherebbe solo nuove applicazioni di AI, ma le renderebbe anche più sicure. Gli algoritmi che esaminano i curriculum non tratterebbero caratteristiche irrilevanti come il sesso e la razza come requisiti rilevanti. Le auto a guida autonoma non perderebbero l'orientamento in un ambiente sconosciuto e non si schianterebbero al buio o in caso di neve. I sistemi multimodali potrebbero diventare le prime AI a cui possiamo affidare in sicurezza le nostre vite.

Leggi anche: Ripresa e crescita passano per l'AI

(rp)