Con Meta l’Intelligenza artificiale è in grado di pensare in modo complesso

Finora le reti neurali profonde sono state molto brave, ad esempio, a identificare oggetti nelle foto e conversare in linguaggio naturale. Ma l’intelligenza artificiale permette ora di unire diversi piani di comprensione

di Will Douglas Heaven

Se una persona riesce a riconoscere l’immagine di un cane, allora probabilmente è possibile che riconosca l’animale anche se viene descritto con le parole. Non è ancora così per l’intelligenza artificiale che può fare solo una cosa alla volta. Parte del problema è che questi modelli apprendono abilità diverse usando tecniche diverse. Questo è un grosso ostacolo allo sviluppo di un’AI più generale, vale a dire macchine in grado di svolgere più compiti e adattarsi. Significa anche che i progressi nell’apprendimento profondo per una competenza spesso non si trasferiscono ad altre.

Un team di Meta AI (precedentemente Facebook AI Research) vuole cambiare la situazione. I ricercatori hanno sviluppato un unico algoritmo che può essere utilizzato per addestrare una rete neurale a riconoscere immagini, testo o parlato. L’algoritmo, chiamato Data2vec, non solo unifica il processo di apprendimento, ma riunisce le tecniche esistenti per sviluppare le tre abilità. 

La ricerca si basa su un approccio noto come apprendimento autogestito, in cui le reti neurali imparano a individuare da sole i modelli nei set di dati, senza essere guidate da esempi etichettati. Questo è il modo in cui i modelli linguistici di grandi dimensioni come GPT-3 imparano da vasti corpi di testo senza etichette prelevati da Internet e ha guidato molti dei recenti progressi nell’apprendimento profondo.

Mentre stavano lavorando sull’apprendimento autogestito per il riconoscimento vocale, Michael Auli e i suoi colleghi di Meta AI si sono resi conto che altri ricercatori stavano portando avanti ricerche simili sulla stessa tecnologia per immagini e testo. Il loro algoritmo Data2vec utilizza due reti neurali, una maestra e l’altra che apprende.

La rete maestra viene addestrata su immagini, testo o discorso nel solito modo, e forma una rappresentazione interna di questi dati che le consente di prevedere ciò che sta vedendo quando vengono mostrati nuovi esempi. Quando gli viene mostrata la foto di un cane, per esempio, lo riconosce in quanto tale.

La rete che apprende, invece, viene addestrata a prevedere le rappresentazioni interne di quella maestra. Poiché non cerca di indovinare l’immagine o la frase effettiva, ma piuttosto la rappresentazione della rete maestra di quell’immagine o frase, non è necessario adattare l’algoritmo a un particolare tipo di input.

ùSi tratta di un notevole cambiamento. Data2vec si inserisce nel filone dell’AI che mira a modelli multitasking di comprensione del mondo. “È un progresso significativo verso la produzione di forme di intelligenza generali“, afferma Ani Kembhavi dell’Allen Institute for AI di Seattle, che lavora su visione e linguaggio

Un limite importante è che, sebbene lo stesso algoritmo di apprendimento possa essere utilizzato per abilità diverse, può apprenderne solo una alla volta. Anche se ha imparato a riconoscere le immagini, deve ricominciare da capo per imparare a riconoscere il parlato. L’obiettivo del team di Meta AI è arrivare nel tempo a una forma di intelligenza artificiale generale.  

I ricercatori sono rimasti sorpresi di scoprire che il loro approccio ha effettivamente funzionato meglio delle tecniche esistenti nel riconoscimento di immagini e parole, e ha raggiunto risultati in linea con i principali modelli linguistici sulla comprensione del testo. Mark Zuckerberg è al lavoro per nuove potenziali applicazioni nel metaverso. “Alla fine la tecnologia verrà integrata negli occhiali AR con un assistente AI”, ha scritto su Facebook. “Potrà aiutare chiunque di noi a preparare una cena, facendoci notare se manca un ingrediente o fornendo consigli di tipo più generale”.

(rp)

Related Posts
Total
0
Share