I sistemi di elaborazione del linguaggio naturale si muovono nella direzione sbagliata

I ricercatori di AI si dovrebbero concentrare su quanto le reti neurali siano effettivamente in grado di capire come funziona il mondo.

di Jesse Dunietz

In genere, alla conferenza annuale dell’Association for Computational Linguistics (ACL), il programma presenta una sfilata di titoli come ‘Un autoencoder variazionale strutturato per la flessione morfologica contestuale‘. La stessa valenza tecnologica permea i giornali, i colloqui di ricerca e molte chat. Quest’anno, tuttavia, qualcosa sembrava diverso, e non si trattava solo della configurazione virtuale.

Le conversazioni dei partecipanti erano insolitamente introspettive sui metodi e sugli obiettivi fondamentali dell’elaborazione del linguaggio naturale (PNL), il ramo dell’AI focalizzato sulla creazione di sistemi che analizzano o generano il linguaggio umano. Ci si è interrogati sugli obiettivi finali della ricerca e sulla validità dei metodi attuali per raggiungerli.

Io e i miei colleghi di Elemental Cognition, un’azienda di ricerca sull’intelligenza artificiale, con sedi in Connecticut e a New York, consideriamo questa domanda più che giustificata. In effetti, crediamo che il campo abbia bisogno di una trasformazione, non solo nella progettazione del sistema, ma in un’area meno glamour: la valutazione.

L’attuale zeitgeist della PNL è nato da mezzo decennio di costanti miglioramenti nell’ambito del paradigma standard della valutazione. La capacità dei sistemi di comprendere è stata generalmente misurata su set di dati di riferimento costituiti da migliaia di domande, ciascuna accompagnata da passaggi contenenti la risposta. Quando le reti neurali profonde si sono imposte a metà degli anni 2010, hanno comportato un salto di qualità in termini di prestazioni. I successivi cicli di lavoro hanno significato punteggi sempre più vicini al 100 per cento (o almeno alla parità con gli umani).

I ricercatori stanno pubblicando nuovi insiemi di dati di domande ancora più complesse, che saranno accompagnate dallo sviluppo rapido di reti neurali più sofisticate che avranno prestazioni impressionanti. Gran parte della ricerca odierna sulla comprensione della lettura implica modelli progettati esattamente per ottenere alcuni punti percentuali in più rispetto agli ultimi set di dati. Una espressione che rende bene lo stato dell’arte è: “Abbiamo battuto SOTA (State of the art) su SQuAD di 2,4 punti!”

Ma molti studiosi del settore sono stanchi di questa situazione. Cosa ha davvero guadagnato il mondo se una massiccia rete neurale supera le prestazioni standard di un punto o due? Essere in testa alla classifica è un esercizio accademico che potrebbe non avere ripercussioni positive sul mondo reale. In effetti, molti miglioramenti apparenti emergono non dalle capacità di comprensione generale, ma dalla straordinaria abilità dei modelli nello sfruttare le incoerenze nel sistema dei dati. I recenti “progressi” aiutano realmente le persone a risolvere i problemi?

Non si tratta di una questione astratta, ma di un importante passaggio per lo sviluppo della nostra società. Naturalmente, la “comprensione” implica un’ampia gamma di competenze. Per le applicazioni più semplici, i metodi attuali funzionano abbastanza bene. Ma quando si parla di computer che comprendono il linguaggio, entrano in ballo comportamenti molto più sofisticati, vale a dire strumenti legali che aiutano le persone ad analizzare le diverse situazioni; assistenti di ricerca che sintetizzano informazioni da tutto il Web; robot che eseguono istruzioni dettagliate.

I modelli di oggi non sono vicini al raggiungimento di un livello di comprensione accettabile. Il punto è in che modo la comunità della PNL vuole colmare il divario tra il livello teorico e le capacità nel mondo reale? In un documento di posizione dell’ACL, io e i miei colleghi sosteniamo che nel tentativo di raggiungere parametri di riferimento complessi, le valutazioni hanno perso di vista gli obiettivi reali: le applicazioni di base. Per dare stabilità al settore, è necessario capire cosa non funziona.

Una persona che legge un testo costruirà un modello mentale, ossia una rappresentazione dettagliata di entità, luoghi, eventi e le loro relazioni. Il lettore può quindi inserire i dettagli mancanti nel modello, estrapolare una scena o persino ipotizzare alternative controfattuali. Questo tipo di ragionamento è esattamente quello che è carente negli attuali assistenti di ricerca automatizzati o i personaggi dei giochi. 

Un ricercatore della PNL può verificare la validità di un sistema di comprensione della lettura all’avanguardia in pochi tentativi. Una tecnica affidabile è quella di sondare il modello di sistema del mondo, inserendo domande sul senso comune che mettono in crisi anche il tanto decantato GPT-3.

Migliorare la comprensione del mondo dei lettori automatici richiederà importanti innovazioni nella progettazione del sistema, come discusso in più occasioni. Ma la nostra domanda è ancora più di base: se i sistemi devono possedere modelli del mondo credibili, il meccanismo di valutazione dovrebbe di volta in volta verificare l’esistenza di questi modelli fedeli del mondo.

Sembrerebbe un procedimento ovvio, ma raramente è stato seguito. Gruppi di ricerca come l’ Allen Institute for AIhanno proposto altri modi per rafforzare le valutazioni, come il targeting di diverse strutture linguistiche, porre domande che si basano su più fasi di ragionamento o anche solo l’aggregazione di diversi parametri di riferimento

Altri ricercatori, come il gruppo di Yejin Choi dell’Università di Washington, si sono concentrati sulla sperimentazione del buon senso. Tali contributi sono utili, ma generalmente si concentrano ancora sulla compilazione di domande alle quali i sistemi di oggi hanno difficoltà a rispondere.

La nostra è una proposta di cambiamento più radicale. Per migliorare la valutazione, i ricercatori della PNL dovrebbero iniziare chiarendo a quale modello di mondo il sistema dovrebbe fare riferimento per essere utile per le applicazioni di base. Un banco di prova particolarmente promettente per definire questo “modello di comprensione” sono le storie di fantasia. 

I racconti originali sono ricchi di informazioni, spesso non rintracciabili su Google, centrali per molte applicazioni, il che li rende un test ideale delle capacità di comprensione della lettura. Attingendo alla letteratura delle scienze cognitive sui lettori umani, il nostro CEO David Ferrucci ha proposto un modello in quattro parti per testare la capacità di un sistema di intelligenza artificiale di comprendere le storie.

Spaziale: dove accade tutto e come si modifica la posizionenel corso storia?
Temporale: quali eventi si verificano e quando?
Causale: in che modo gli eventi conducono meccanicamente ad altri eventi?
Motivazionale: perché i personaggi decidono di intraprendere determinate azioni e non altre?

Ponendosi sistematicamente queste domande su tutti i personaggi ed eventi in una storia, i ricercatori della PNL possono valutare il livello di comprensione dei sistemi, sondando i modelli del mondo che servono a tale scopo. È incoraggiante vedere la comunità della PNL riflettere su ciò che manca alle tecnologie odierne. Speriamo che questo pensiero comporti un investimento sostanziale non solo in nuovi algoritmi, ma in sistemi originali e più rigorosi per misurare la comprensione delle macchine. 

Jesse Dunietz è ricercatore presso Elemental Cognition. È anche designer in campo educativo per il Communication Lab del MIT e divulgatore scientifico.

Immagine di: Ms Tech / Unsplash

(rp)

Related Posts
Total
0
Share