I test mostrano che il generatore di linguaggio di OpenAI ha ancora una conoscenza limitata della realtà, malgrado l’enorme numero di dati utilizzati durante le fasi di addestramento degli algoritmi.
di Gary Marcus e Ernest Davis
Da quando, a maggio, OpenAI ha descritto per la prima volta il suo nuovo sistema di generazione di linguaggio AI chiamato GPT-3, centinaia di organi di stampa hanno dedicato articoli all’argomento. Twitter ha ospitato un dibattito acceso sul potenziale di GPT-3. Il “New York Times” ha pubblicato un editoriale al riguardo. Entro la fine dell’anno, OpenAI inizierà a far pagare alle aziende l’accesso a GPT-3, sperando che il suo sistema possa presto alimentare un’ampia varietà di prodotti e servizi di intelligenza artificiale.
La domanda è se GPT-3 sia un passo importante verso un tipo di intelligenza artificiale generale che consentirebbe a una macchina di ragionare in un modo simile agli umani senza doversi addestrare per ogni compito specifico che deve sostenere. Il documento tecnico di OpenAI non risponde a questa domanda, ma per molti, la fluidità del sistema attesta di un progresso significativo.
Ne dubitiamo. A prima vista, GPT-3 sembra avere una capacità impressionante di produrre testo simile a quello umano. Siamo certi che possa essere utilizzato per produrre divertenti fiction surrealiste o altre applicazioni commerciali, ma la precisione non è il suo punto di forza. Scavando più a fondo, si scopre che qualcosa non va. Malgrado la correttezza grammaticale e il buon utilizzo del linguaggio idiomatico, la sua comprensione del mondo è spesso seriamente limitata, il che significa che non ci si può fidare di quello che dice.
Di seguito sono riportate alcuni esempi della sua mancanza di comprensione: tutte le critiche, come vedremo in seguito, erano già state anticipate in un precedente documento che uno di noi (Gary Marcus) ha scritto sul predecessore di GPT-3. Vale anche la pena notare che OpenAI finora non ci ha consentito l’accesso per la ricerca a GPT-3, nonostante il suo status di organizzazione non profit di ricerca sull’intelligenza artificiale.
In realtà, OpenAI ci ha sempre dato risposte negative nonostante le ripetute richieste, anche se ha reso l’accesso ampiamente disponibile ai media. Fortunatamente, il nostro collega Douglas Summers-Stay, che aveva la possibilità di accedere al sistema, si è offerto generosamente di eseguire gli esperimenti per noi.
La sorprendente chiusura di OpenAI ci sembra essere una grave violazione dell’etica scientifica e una distorsione degli obiettivi dell’organizzazione non profit. La sua decisione ci ha costretti a limitare i nostri test a un numero relativamente modesto di esempi, dandoci meno tempo di quanto avremmo voluto per indagare, il che significa che potrebbero esserci difficoltà più serie che non abbiamo avuto la possibilità di rilevare. Anche così, entro i limiti di un piccolo campione, molti problemi importanti con GPT-3 sono stati immediatamente evidenti, in ogni dominio di ragionamento e comprensione che abbiamo testato.
In ogni esempio seguente, lo spunto che abbiamo generato è in caratteri normali e la continuazione del sistema è in grassetto. I nostri commenti sono in corsivo. (Un elenco completo degli esperimenti che abbiamo fatto può essere trovato al seguente link).
Ragionamento in ambito biologico
Ti sei versato un bicchiere di succo di mirtillo rosso, ma poi distrattamente ci hai versato dentro circa un cucchiaino di succo d’uva. Sembra tutto a posto. Provi ad annusarlo, ma hai un brutto raffreddore, quindi non senti nulla. Hai molta sete. Quindi lo bevi.
E sei morto.
[GPT-3 sembra presumere che il succo d’uva sia un veleno, nonostante ci siano molti riferimenti sul web a ricette di uva e mirtillo rosso e che Ocean Spray venda una bevanda commerciale di Cran-Grape].Ragionamento in ambito fisico
Stai organizzando una cena da servire in soggiorno. Il tavolo della sala da pranzo è più largo della porta, quindi per portarlo in soggiorno, dovrai rimuovere la porta. Hai una sega da tavolo, quindi tagli la porta a metà e rimuovi la metà superiore.
[Una serie di fraintendimenti. In questo caso le soluzioni naturali qui sarebbero o inclinare il tavolo su un lato (spesso sufficiente, a seconda delle misure) o togliere le gambe dal tavolo, se sono staccabili. Rimuovere una porta a volte è necessario per passare con un tavolo, ma difficilmente varrebbe la pena per una cena. Se si deve rimuovere una porta è sufficiente toglierla dai cardini. Infine, una “sega da tavolo” non è uno strumento per dimezzare una porta].Ragionamento in ambito sociale
Sei un avvocato difensore e devi andare in tribunale. Quando ti vesti la mattina, scopri che i tuoi pantaloni hanno diverse macchie. Tuttavia, in casa hai il tuo costume da bagno, pulito e decisamente elegante. Si tratta di un costoso regalo di compleanno da parte di Isabel. Decidi che dovresti indossare il costume da bagno per andare in tribunale. Arrivi in tribunale e sei accolto da un ufficiale giudiziario che ti accompagna in aula.
Oggetto e tracciamento individuale
Ieri ho lasciato i miei vestiti in tintoria e non li ho ancora ritirati. Dove sono i miei vestiti? Ho molti vestiti.
[GPT-3 sta eludendo la domanda e non riesce a tracciare le posizioni degli oggetti. Uno di noi (Gary) ha riportato la stessa domanda e ha avuto l’identico problema con il predecessore di GPT-3 in un documento precedente].Ragionamento in ambito psicologico
Janet e Penny sono andate al negozio per prendere i regali per Jack. Janet ha detto: “Comprerò un top a Jack”. “Non prendere un top a Jack”, dice Penny. “ne ha già uno”. Quindi Janet comprerà un top.
[GPT-3 non ha capito che Penny sta sconsigliando a Janet di prendere un top perché Jack già lo ha. La continuazione prevista era “Lui te lo farà riportare indietro”). Questo esempio è stato tratto direttamente dalla tesi di dottorato di Eugene Charniak del 1972; quasi 50 anni dopo, il linguaggio naturale AI fallisce in questo compito].Attribuzione di una falsa causa
Alla festa, mi sono versato un bicchiere di limonata, ma era troppo acida, quindi ho aggiunto un po’ di zucchero. Non avevo un cucchiaio a portata di mano, quindi l’ho mescolato con una sigaretta. Ma si è rivelata una cattiva idea perché continuava a cadere sul pavimento. È stato allora che ha deciso di avviare la Cremation Association of North America, che ha avuto successo e ha aperto 145 sedi.
[GPT-3 dapprima prevede conseguenze false quando si mescola la limonata con una sigaretta e poi perde completamente di vista la situazione].L’aspetto deprimente è che niente di tutto questo è nuovo. Il predecessore di GPT-3 (noto come GPT-2) soffriva esattamente degli stessi punti deboli. Come Gary Marcus ha sostenuto a febbraio: “In condizioni favorevoli, un sistema come la discussa rete neurale GPT-2, che produce storie a partire da un qualsiasi spunto, può realizzare qualcosa che apparentemente sembra riflettere una profondo comprensione … Ma non importa quanto convincenti possano sembrare molti degli esempi di GPT-2, la realtà è che le sue capacità di rappresentazione sono scarse … la conoscenza raccolta dalle reti neurali contemporanee rimane frammentaria, poco utile, certamente impressionante, ma mai affidabile”.
Non è cambiato molto. L’aggiunta continua di dati di input ha aiutato, ma solo in parte. Dopo che i ricercatori hanno speso milioni di dollari per l’addestramento degli algoritmi, dedicato uno staff di 31 persone alla sfida e prodotto quantità sorbitanti di emissioni di carbonio legate al consumo di elettricità, i difetti fondamentali di GPT rimangono. Le sue prestazioni sono inaffidabili, la comprensione causale è poco affidabile e l’incoerenza la fa da padrona. GPT-2 ha avuto problemi con il ragionamento di tipo biologico, fisico, psicologico e sociale e una tendenza generale all’incoerenza e alla mancanza di comprensione del rapporto causa-effetto. GPT-3 è sulla stessa strada.
Più dati consentono un’approssimazione migliore e più fluida alla lingua, ma non costituiscono un’intelligenza affidabile. I difensori del sistema faranno sicuramente notare che spesso è possibile riformulare questi problemi in modo che GPT-3 trovi la soluzione corretta. Per esempio, si ottiene la risposta corretta al problema del mirtillo rosso / succo d’uva se si fornisce a GPT-3 il seguente prompt, decisamente prolisso:
Nelle seguenti domande, alcune delle azioni hanno gravi conseguenze, mentre altre sono perfettamente plausibili. Il tuo compito è identificare le conseguenze delle varie miscele e stabilire se sono pericolose o meno.
1. Ti sei versato un bicchiere di succo di mirtillo rosso, ma poi distrattamente ci hai versato dentro circa un cucchiaino di succo d’uva. Sembra tutto a posto. Provi ad annusarlo, ma hai un brutto raffreddore, quindi non senti nulla. Hai molta sete. Quindi lo bevi.
a. Questa è una miscela pericolosa.
b. Questa è una miscela sicura.
La risposta corretta è:
La continuazione di GPT-3 a questo prompt è: “B. Questa è una miscela sicura“.
Il problema è che non si ha modo di sapere in anticipo quali formulazioni ti daranno o meno la risposta giusta. Per un ottimista, qualsiasi accenno di successo significa che, come nella storia del bambino che cerca il regalo sotto il letame, deve esserci un pony da qualche parte. L’ottimista sosterrà (come molti hanno fatto) che poiché esiste una formulazione in cui GPT-3 ottiene la risposta giusta, il sistema ha la conoscenza e la capacità di ragionamento necessarie: viene solo confuso dalla lingua.
Ma il problema non è con la sintassi di GPT-3 (che è perfettamente fluente) ma con la sua semantica: può produrre parole in un inglese perfetto, ma ha solo una vaga percezione di ciò che quelle parole significano, e nessun senso sul rapporto di quelle parole con la realtà. Per capire perché, è utile pensare a cosa fanno i sistemi come GPT-3. Non imparano a conoscere il mondo, ma procedono con un continuo taglia e incolla, invece di comprendere i concetti che sono alla base di quei testi.
Tutto ciò che GPT-3 ha in realtà è una visione a tunnel di come le parole si relazionano tra loro. Non deduce che il succo d’uva sia una bevanda (anche se può trovare correlazioni di parole coerenti con quello); né deduce nulla sulle norme sociali che potrebbe precludere alle persone di indossare costumi da bagno nei tribunali. Impara le correlazioni tra le parole e nient’altro. Il sogno degli empiristi è di acquisire una completa comprensione del mondo a partire dai dati sensoriali, ma GPT-3 non la raggiunge, anche con mezzo terabyte di dati di input.
Mentre stavamo scrivendo questo saggio, il nostro collega Summers-Stay, che è bravo con le metafore, ha scritto a uno di noi, dicendo: “GPT è strano perché non si ‘preoccupa’ di ottenere la risposta giusta alla domanda che gli poni. È più come un improvvisatore che non esce mai dal suo ruolo e ha vissuto solo nel mondo dei libri. Un attore del genere, quando non sa qualcosa, finge. Non ci si può fidare di un attore improvvisato che interpreta la parte di un dottore per darti consigli medici”.
Inoltre, non si possono chiedere consigli a GPT-3 su come mescolare bevande o spostare mobili o per spiegare la trama di un romanzo a un figlio o per chiedere dove mettere il bucato; potrebbe risolvere un problema di matematica, ma potrebbe sbagliarlo. È uno sputa sciocchezze. Anche con 175 miliardi di parametri e 450 gigabyte di dati di input non è un interprete affidabile del mondo.
Gary Marcus è fondatore e CEO di Robust.AI ed è stato fondatore e CEO di Geometric Intelligence, che è stata acquisita da Uber. È anche professore emerito alla NYU e autore di cinque libri tra cui Guitar Zero e, con Ernest Davis, di Rebooting AI: building artificial intelligence we can trust.
Ernest Davis è professore di informatica alla New York University. È autore di quattro libri, tra cui Representations of commonsense knowledge.
Immagine di: Ms Tech / Getty / Unsplash
(rp)