L’IA non è ancora dotata del buon senso per comprendere il linguaggio umano

L’elaborazione del linguaggio naturale ha fatto passi da gigante di recente, ma l’IA capisce veramente ciò che legge? Meno di quanto si pensasse.

di Alessandro Ovi

Fino a poco tempo fa, i computer non riuscivano a produrre frasi con un senso compiuto. Ma il campo dell’elaborazione del linguaggio naturale (PNL) è andato avanti e le macchine possono ora generare testi convincenti con la semplice pressione di un pulsante.

Questi progressi sono stati guidati dalle tecniche di apprendimento profondo, che individuano modelli statistici nell’uso delle parole e nella struttura degli argomenti “studiati” su vasti repertori di testo. Ma un recente articolo dell’Allen Institute of Artificial Intelligence richiama l’attenzione su qualcosa che ancora manca: le macchine non capiscono davvero cosa stanno scrivendo (o leggendo).

Questa è una sfida fondamentale nella ricerca dell’IA che rappresenta un obiettivo rilevante non solo per il mondo accademico, ma anche per i consumatori. I chatbot e gli assistenti vocali basati su modelli di linguaggio naturale avanzati, per esempio, sono diventati l’interfaccia per molti istituti finanziarioperatori sanitari e agenzie governative. Senza un’autentica comprensione del linguaggio, questi sistemi sono più inclini a fallire, rallentando l’accesso a servizi importanti.

I ricercatori hanno sviluppato il modello del Winograd Schema Challenge, un test creato nel 2011 per valutare il “buon senso” dei sistemi di PNL. La prova utilizza una serie di 273 domande che coinvolgono coppie di frasi identiche ad eccezione di una parola. Quella parola, nota come trigger, cambia il significato della frase, come mostrato dai pronomi nell’esempio seguente:
The trophy doesn’t fit into the brown suitcase because it’s too large.
<il trofeo non entra nella valigia marrone perché (esso) è troppo grande>

The trophy doesn’t fit into the brown suitcase because it’s too small.
<Il trofeo non entra nella valigia marrone perché (essa) è troppo piccola>

Per avere successo, un sistema di PNL deve capire a quale delle due opzioni si riferisce il pronome. In questo caso, sarebbe necessario fare riferimento a “trofeo” per il primo e a “valigia” per il secondo per risolvere correttamente il problema.

Il test è stato originariamente progettato con l’idea che tali problemi non potevano essere risolti senza la comprensione semantica. I modelli di apprendimento profondo più evoluti possono ora raggiungere una precisione del 90 per cento circa, quindi sembrerebbe che la PNL si sia avvicinata al suo obiettivo.

Ma nel loro articolo, che riceverà l’Outstanding Paper Award alla conferenza AAAI del prossimo mese, i ricercatori mettono in discussione l’efficacia del benchmark e, quindi, il livello di progressi che il campo ha effettivamente realizzato.

Il loro set di dati, il Winogrande, è significativamente più grande e presenta 44.000 problemi dello stesso tipo del Winograd. Per fare ciò, hanno progettato uno schema di crowdsourcing per creare e validare rapidamente nuove coppie di frasi (Parte del motivo per cui il set di dati Winograd è così limitato è che è stato realizzato a mano da esperti).

Chi ha lavorato a Mechanical Turk di Amazon ha creato nuove frasi con le parole richieste selezionate attraverso una procedura di randomizzazione. Ogni coppia di frasi è stata quindi verificata da altri tre collaboratori e accettata solo se soddisfaceva tre criteri: almeno due lavoratori dovevano selezionare le risposte corrette, tutti e tre dovevano ritenere le opzioni inequivocabili e i riferimenti del pronome non potevano essere dedotti attraverso semplici associazioni di parole.

Come ultimo passo, i ricercatori hanno anche eseguito il set di dati attraverso un algoritmo per rimuovere il maggior numero possibile di “artefatti”: schemi di dati o correlazioni involontari che potrebbero aiutare un modello di linguaggio a ottenere le risposte giuste per le ragioni sbagliate. Ciò riduceva la possibilità che un modello possa imparare ad aggirare il set di dati.

Quando hanno testato i modelli più avanzati su questi nuovi problemi, le prestazioni sono scese tra il 59,4 per cento e il 79,1 per cento. Al contrario, gli umani hanno ancora raggiunto una precisione del 94 per cento. Ciò significa che un punteggio elevato nel test Winograd originale è probabilmente gonfiato. “È solo un risultato specifico di un set di dati, non una prova della capacità di svolgere un compito generale”, afferma Yejin Choi, professore associato presso l’Università di Washington e dirigente senior della ricerca presso AI2, che ha guidato la ricerca.

Choi spera che il set di dati servirà come nuovo punto di riferimento e che ispirerà più ricercatori ad andare oltre l’apprendimento profondo. I risultati le hanno fatto capire che i veri sistemi NLP di “buon senso” devono incorporare altre tecniche, come i modelli di conoscenza strutturata. Il suo lavoro precedente aveva già indicato questa direzione. “In qualche modo dobbiamo trovare un piano di gioco diverso”, ella afferma.

L’articolo ha ricevuto alcune critiche. Ernest Davis, uno dei ricercatori che ha lavorato al progetto originale di Winograd, afferma che molte delle coppie di frasi di esempio elencate nel documento sono “gravemente imperfette”, con aspetti grammaticali confusi. “Non corrispondono al modo in cui le persone che parlano inglese usano effettivamente i pronomi”, ha scritto in un’e-mail.

Ma Choi nota che i modelli veramente robusti non dovrebbero aver bisogno di una grammatica perfetta per capire una frase. Le persone che parlano inglese come seconda lingua a volte producono frasi scorrette grammaticalmente, ma riescono ugualmente a trasmettere il significato.

“Gli esseri umani possono facilmente capire di cosa trattano le nostre domande e selezionare la risposta corretta”, afferma, riferendosi all’accuratezza delle prestazioni del 94 per cento. “Se gli umani sono in grado di farlo, la mia posizione è che anche le macchine devono essere in grado di farlo”.

Immagine: Pexels / Jimmy Chan

Related Posts
Total
0
Share