L’AI non capisce veramente il linguaggio

Alcuni modelli di intelligenza artificiale sembrano capire il linguaggio e ottengono un punteggio migliore degli umani su una serie di compiti di comprensione, ma non si accorgono quando le parole in una frase sono distribuite in modo confuso e privo di significato.

di Will Douglas Heaven

Il problema sta nel modo in cui vengono addestrati i sistemi di elaborazione del linguaggio naturale (PNL) e apre allo stesso tempo il confronto scientifico sul modo per migliorarli. I ricercatori della Auburn University in Alabama e Adobe Research hanno scoperto cosa non funziona quando hanno cercato di ottenere un sistema di PNL per generare spiegazioni del suo comportamento, come il motivo per cui affermava che frasi diverse significavano la stessa cosa. 

Durante le loro ricerche, si sono resi conto che cambiare posto alle parole in una frase non faceva differenza per il sistema. “Questo è un problema generale per tutti i modelli di PNL”, afferma Anh Nguyen della Auburn University, che ha guidato il lavoro.

Il team ha esaminato diversi sistemi NLP all’avanguardia basati su BERT (un modello di linguaggio sviluppato da Google che è alla base anche del recente GPT-3). Tutti ottengono punteggi migliori degli umani su GLUE (General Language Understanding Evaluation), un insieme standard di compiti progettati per testare la comprensione del linguaggio, come individuare le parafrasi, giudicare se una frase esprime sentimenti positivi o negativi e ragionamento verbale.

Si è scoperto che questi sistemi non erano in grado di capire quando le parole di una frase venivano mescolate, anche quando il nuovo ordine cambiava il significato. Per esempio, i sistemi hanno rilevato correttamente che le frasi “La marijuana causa il cancro?” e “In che modo fumare marijuana può provocare il cancro ai polmoni?” erano parafrasi. Ma erano ancora più certi che “Fumi il cancro come può dare la marijuana ai polmoni?” e “Il polmone può far fumare marijuana come si fa il cancro?” significavano a loro volta la stessa cosa. I sistemi hanno anche deciso che frasi con significati opposti, come “La marijuana causa il cancro?” e “Il cancro causa la marijuana?”, rappresentavano la stessa domanda.

L’unico compito in cui era importante l’ordine delle parole era quello in cui i modelli dovevano controllare la struttura grammaticale di una frase. Altrimenti, tra il 75 e il 90 per cento delle risposte dei sistemi testati non cambiava quando le parole venivano mescolate.

I modelli sembrano cogliere alcune parole chiave in una frase, qualunque sia l’ordine in cui entrano. Non capiscono la lingua come noi, e GLUE, un punto di riferimento molto popolare, non misura il vero uso della lingua. In molti casi, l’attività su cui viene addestrato un modello non lo obbliga a preoccuparsi dell’ordine delle parole o della sintassi in generale. In altre parole, GLUE insegna ai modelli di PNL a fare i salti mortali.

Molti ricercatori hanno iniziato a utilizzare una serie di test più complessi chiamati SuperGLUE, ma Nguyen sospetta che si troveranno di fronte a problemi simili. Questa difficoltà è stato identificata anche da Yoshua Bengio e colleghi, che hanno scoperto che il riordino delle parole in una conversazione non modificava le risposte dei chatbot. E un team di Facebook AI Research ha trovato esempi di ciò che accade con il Cinese

E’ grave? Dipende dall’applicazione. Da un lato, un’intelligenza artificiale che capisce ancora quando si fa un errore di battitura o si dice qualcosa di confuso, come potrebbe fare un altro umano, sarebbe utile. Ma in generale, l’ordine delle parole è cruciale quando si estrae il significato di una frase.

La buona notizia è che la soluzione non dovrebbe essere particolarmente difficile. I ricercatori hanno scoperto che forzare un modello a concentrarsi sull’ordine delle parole, addestrandolo a svolgere un’attività in cui l’ordine delle parole era importante (come individuare gli errori grammaticali), migliora le prestazioni del modello anche in altre attività. Ciò suggerisce che modificare i compiti per i quali i modelli sono addestrati li renderà complessivamente migliori.

I risultati di Nguyen sono un altro esempio di come i modelli spesso non siano all’altezza di ciò di che fanno le persone ed evidenziano quanto sia difficile fare in modo che l’AI comprenda e ragioni come gli esseri umani.

Immagine di: Ms Tech | Unsplash / Brett Jordan

(rp)

Related Posts
Total
0
Share