Facebook chiede aiuto alle persone per migliorare l’AI

Il nuovo tipo di test elaborato dall’azienda contrappone AI e umani, per dimostrare che i modelli di apprendimento automatico non si lasciano ingannare facilmente dalle persone.

di Will Douglas Heaven

I successi esplosivi dell’IA negli ultimi dieci anni circa sono normalmente attribuiti alla possibilità di accesso a molti dati e alla potenza di calcolo. Ma anche i benchmark svolgono un ruolo cruciale nel guidare il progresso: test in cui i ricercatori possono mettere alla prova la loro AI per vedere quanto è avanzata. Per esempio, ImageNet, un set di dati pubblico di 14 milioni di immagini, definisce un obiettivo per il riconoscimento delle immagini. MNIST ha fatto lo stesso per il riconoscimento della grafia e GLUE (General Language Understanding Evaluation) per l’elaborazione del linguaggio naturale, portando a modelli linguistici innovativi come GPT-3.

I progressi sono impressionanti. ImageNet è in fase di aggiornamento e GLUE è stato sostituito da SuperGLUE, una serie di compiti linguistici più difficili. L’obiettivo dei ricercatori, però, è quello di superare le persone in una serie di sfide. Per questa ragione, Facebook sta rilasciando un nuovo tipo di test che contrappone AI e umani, il cui compito è mostrarne i limiti. Chiamato Dynabench, il test avrà il livello di difficoltà che le persone sceglieranno.

I benchmark possono essere molto fuorvianti, afferma Douwe Kiela di Facebook AI Research, che ha guidato l’intera operazione. Concentrarsi troppo sugli standard può però significare perdere di vista obiettivi più ampi, con il rischio che si presti attenzione solo ai risultati del test. “Si potrebbe finire con un sistema che risulta migliore nel test di quanto lo siano gli esseri umani, ma non altrettanto efficiente nel compito generale”, dice Kiela. “Può ingannare perché c’è il pericolo di ritenere di essere molto più avanti di quanto lo si è nella realtà”.

Kiela pensa che ci sia un problema particolare con l’elaborazione del linguaggio naturale in questo momento. Un modello linguistico come GPT-3 sembra intelligente perché è così bravo a imitare il linguaggio, ma è difficile dire quanto questi sistemi capiscano effettivamente. E’ un po’ come provare a misurare l’intelligenza umana, egli dice. Si possono fare test intellettivi, ma non forniscono una risposta sicura alla domanda se una persona afferra davvero un argomento. Per farlo devi parlare con loro, fare domande.

Dynabench fa qualcosa di simile, usando le persone per interrogare le AI. Diffuso online solo qualche giorno fa, il test invita le persone a visitare il sito Web e a interrogare i modelli che gli hanno dato forma. Per esempio, si può proporre a un modello di linguaggio una pagina di Wikipedia e poi fargli domande, valutando le sue risposte.

In un certo senso, l’idea è simile al modo in cui le persone stanno già “giocando” con GPT-3, testandone i limiti, o al modo in cui i chatbot vengono valutati per il Loebner Prize, un concorso in cui i bot cercano di passare per umani. Ma con Dynabench, i limiti che emergono durante i test verranno automaticamente eliminati nei modelli futuri, in una costante opera di miglioramento.

Per ora Dynabench si concentrerà sui modelli linguistici perché sono uno dei tipi di AI più facili con cui gli esseri umani possono interagire. “Tutti parlano una lingua”, dice Kiela. “Non è necessaria alcuna altra conoscenza per mettere in difficoltà questi modelli”. Ma l’approccio dovrebbe funzionare anche per altri tipi di rete neurale, come i sistemi di riconoscimento vocale o di immagini. 

“Vogliamo convincere la comunità dell’AI che esiste un modo migliore per misurare i progressi del settore”, egli conclude. “Si spera che tutto ciò si traduca in progressi più rapidi e in una migliore comprensione del motivo per cui i modelli di apprendimento automatico continuano a fallire”. 

Immagine: Yatheesh Gowda / Pixabay

(rp)

Related Posts
Total
0
Share