L’AI riassume gli studi di AI

Semantic Scholar, un motore di ricerca della letteratura scientifica, sta utilizzando le recenti scoperte nell’elaborazione del linguaggio naturale per fornire ai ricercatori un valido supporto tecnico per esaminare rapidamente il contenuto dei nuovi studi.

di Karen Hao

Un nuovo modello di intelligenza artificiale per fare un compendio della letteratura scientifica può ora aiutare i ricercatori a esaminare qualsiasi documento desiderino leggere. Il 16 novembre, l’Allen Institute for Artificial Intelligence (AI2) ha implementato il modello sul suo prodotto di punta, Semantic Scholars, un motore di ricerca di documenti scientifici basato sull’intelligenza artificiale.

Il sistema fornisce una sigla (per esempio, “tl” sta per “too long”) sotto ogni documento di informatica, almeno per il momento, quando gli utenti usano la funzione di ricerca o vanno alla pagina di un autore. Il lavoro sarà presentato a breve alla conferenza Empirical Methods for Natural Language Processing.

In un’era di sovraccarico di informazioni, l’utilizzo dell’AI per riassumere il testo è stato possibile grazie all’elaborazione del linguaggio naturale (PNL). Esistono due approcci generali a questa attività. Uno è chiamato “estrattivo”, che cerca di trovare una frase o un insieme di frasi dal testo per “catturarne” il contenuto. L’altro è chiamato “astrattivo”, che implica la generazione di nuove frasi. Mentre le tecniche estrattive erano più popolari a causa dei limiti dei sistemi di PNL, i progressi nella generazione del linguaggio naturale negli ultimi anni hanno migliorato molto quella teorica.

Il modello astratto di AI2 utilizza quello che è noto come trasformatore, un tipo di architettura di rete neurale inventata per la prima volta nel 2017 che da allora ha alimentato tutti i principali progressi della PNL, incluso GPT-3 di OpenAI. I ricercatori hanno prima addestrato il trasformatore su un corpus di testo generico per stabilire la sua familiarità di base con la lingua inglese. Questo processo è noto come “pre-training” e fa parte di ciò che rende i trasformatori così potenti. Hanno quindi messo a punto il modello – in altre parole, lo hanno addestrato ulteriormente – sul compito specifico di riepilogo.

I ricercatori hanno prima creato un set di dati chiamato SciTldr, che contiene circa 5.400 coppie di articoli scientifici e corrispondenti sommari di una sola frase. Per trovare questi riassunti di alta qualità, sono andati prima a cercarli su OpenReview, una piattaforma per la presentazione di documenti per conferenze pubbliche in cui i ricercatori pubblicano spesso la brevissima sintesi del loro articolo. Con questo sistema sono stati raccolti una parte degli articoli. I ricercatori hanno quindi assunto degli annotatori per riassumere più articoli leggendo e condensando ulteriormente le sinossi che erano già state scritte dai revisori tra pari.

Per integrare ulteriormente queste 5.400 coppie, i ricercatori hanno compilato un secondo set di dati di 20.000 coppie di articoli scientifici e dei loro titoli. I ricercatori hanno intuito che, poiché i titoli stessi sono una forma di riepilogo, avrebbero ulteriormente aiutato il modello a migliorare i suoi risultati. Questa idea è stata confermata dalla sperimentazione.

Mentre molte altre ricerche hanno affrontato il compito di riepilogo, questa si distingue per il livello di compressione che può ottenere. Gli articoli scientifici inclusi nel set di dati SciTldr hanno una media di 5.000 parole e i loro riassunti di una frase 21. Ciò significa che ogni articolo è compresso in media fino a 238 volte la sua lunghezza. Il futuro metodo basato sull’astrazione è addestrato a comprimere articoli scientifici in media solo 36,5 volte. Durante i test, i revisori umani hanno anche giudicato i riepiloghi del modello più informativi e accurati rispetto ai metodi precedenti.

Uno screenshot di Semantic Scholar.AI2

AI2 sta già lavorando per migliorare il proprio modello a breve termine, afferma Daniel Weld, del l’Università di Washington e manager del gruppo di ricerca Semantic Scholar. Per prima cosa, hanno in programma di addestrare il modello a non gestire solo semplici documenti di informatica. Per esempio, hanno scoperto che le sintesi del tipo “tl” per “too long” a volte si sovrappongono al titolo dell’articolo, diminuendo la loro utilità complessiva. Hanno in programma di aggiornare il processo di formazione del modello per penalizzare tale sovrapposizione ed evitare ripetizioni.

Le sigle, come “tr” per “too long”, sono utilizzate per fare una lettura veloce dei documenti su apparecchi mobili.AI2

A lungo termine, il team cercherà di riassumere più documenti contemporaneamente, il che potrebbe essere utile per i ricercatori che si avventurano in un nuovo settore o forse anche per i responsabili politici che vogliono mettersi rapidamente al passo. “Quello che vogliamo fare è creare briefing di ricerca personalizzati”, afferma Weld, “in cui possiamo riassumere non solo un articolo, ma una serie di almeno sei recenti riferimenti a una particolare sottoarea”.

Immagine: Ms Tech | Howdesign / Noun Project

(rp)

Related Posts
Total
0
Share