Skip to main content
YOSHI SODEOKA

La tendenza a inventare le cose frena i chatbot. Ma è proprio quello che fanno.

Il nuovo chatbot dell’Organizzazione Mondiale della Sanità è stato lanciato il 2 aprile con le migliori intenzioni.

Un avatar virtuale dal volto fresco, supportato da GPT-3.5, SARAH (Smart AI Resource Assistant for Health) dispensa consigli sulla salute in otto lingue diverse, 24 ore su 24, 7 giorni su 7, su come mangiare bene, smettere di fumare, rilassarsi e altro ancora, per milioni di persone in tutto il mondo.

Ma come tutti i chatbot, SARAH può sbagliare le sue risposte. Si è subito scoperto che forniva informazioni errate. In un caso, ha fornito un elenco di nomi e indirizzi falsi di cliniche inesistenti a San Francisco. L’Organizzazione Mondiale della Sanità avverte sul suo sito web che SARAH potrebbe non essere sempre accurato.

Ci risiamo. I fallimenti dei chatbot sono ormai un meme familiare. Il chatbot scientifico Galactica di Meta, che ha avuto vita breve, ha inventato documenti accademici e generato articoli wiki sulla storia degli orsi nello spazio. A febbraio, Air Canada è stata condannata a rispettare una politica di rimborso inventata dal suo chatbot del servizio clienti. L’anno scorso, un avvocato è stato multato per aver presentato documenti giudiziari pieni di pareri giudiziari falsi e citazioni legali inventate da ChatGPT.

Il problema è che i modelli linguistici di grandi dimensioni sono così bravi in quello che fanno che il più delle volte quello che inventano sembra giusto. E questo rende difficile fidarsi di loro.

Questa tendenza a inventare le cose, nota come allucinazione, è uno dei maggiori ostacoli che frenano l’adozione dei chatbot. Perché lo fanno? E perché non riusciamo a risolvere il problema?

Palla magica 8

Per capire perché i grandi modelli linguistici hanno le allucinazioni, dobbiamo vedere come funzionano. La prima cosa da notare è che questi modelli sono progettati proprio per inventare. Quando si pone una domanda a un chatbot, questo trae la sua risposta dal modello linguistico di grandi dimensioni su cui si basa. Ma non è come cercare informazioni in un database o usare un motore di ricerca sul web.

Se si apre un modello linguistico di grandi dimensioni, non si vedono informazioni pronte per essere recuperate. Troverete invece miliardi e miliardi di numeri. Il modello utilizza questi numeri per calcolare le sue risposte da zero, producendo nuove sequenze di parole al volo. Molto del testo generato da un modello linguistico di grandi dimensioni sembra essere stato copiato da un database o da una pagina web reale. Ma come nella maggior parte delle opere di fantasia, le somiglianze sono casuali. Un modello linguistico di grandi dimensioni è più simile a una Magic 8 Ball infinita che a un’enciclopedia.

I modelli linguistici di grandi dimensioni generano testo prevedendo la parola successiva in una sequenza. Se un modello vede “il gatto si è seduto”, può indovinare “su”. Questa nuova sequenza viene reinserita nel modello, che ora può indovinare “il”. Se fa un altro giro, può indovinare “mat” e così via. Questo trucco è sufficiente per generare quasi tutti i tipi di testo che si possono immaginare, dagli annunci di Amazon agli haiku, dalla fan fiction al codice informatico, agli articoli di riviste e molto altro ancora. Come ama dire Andrej Karpathy, informatico e cofondatore di OpenAI, i modelli linguistici di grandi dimensioni imparano a sognare i documenti di Internet.

Pensate ai miliardi di numeri contenuti in un modello linguistico di grandi dimensioni come a un vasto foglio di calcolo che cattura la probabilità statistica che certe parole appaiano insieme ad altre. I valori del foglio di calcolo vengono impostati durante l’addestramento del modello, un processo che regola questi valori più e più volte finché le ipotesi del modello non rispecchiano i modelli linguistici trovati in terabyte di testo presi da Internet.

Per indovinare una parola, il modello fa semplicemente scorrere i suoi numeri. Per ogni parola del suo vocabolario calcola un punteggio che riflette la probabilità che quella parola sia la successiva nella sequenza in gioco. La parola con il punteggio migliore vince. In breve, i modelli linguistici di grandi dimensioni sono slot machine statistiche. Basta girare la manovella per far uscire una parola.

È tutta un’allucinazione

Il punto di partenza? È tutta un’allucinazione, ma la chiamiamo così solo quando ci accorgiamo che è sbagliata. Il problema è che i modelli linguistici di grandi dimensioni sono così bravi in quello che fanno che quello che inventano sembra giusto la maggior parte delle volte. E questo rende difficile fidarsi di loro.

È possibile controllare ciò che i modelli linguistici di grandi dimensioni generano in modo che producano un testo che sia garantito come accurato? Questi modelli sono troppo complicati perché i loro numeri possano essere modificati a mano. Ma alcuni ricercatori ritengono che l’addestramento su un numero ancora maggiore di testi continuerà a ridurre il loro tasso di errore. È una tendenza che abbiamo visto man mano che i modelli linguistici di grandi dimensioni sono diventati più grandi e migliori.

Un altro approccio consiste nel chiedere ai modelli di controllare il loro lavoro mentre procedono, suddividendo le risposte passo dopo passo. È stato dimostrato che questo metodo, noto come “chain-of-thought prompting”, aumenta l’accuratezza dei risultati di un chatbot. Non è ancora possibile, ma i futuri modelli linguistici di grandi dimensioni potrebbero essere in grado di controllare il testo che producono e persino di riavvolgerlo quando iniziano a sbagliare.

Ma nessuna di queste tecniche è in grado di fermare completamente le allucinazioni. Finché i modelli linguistici di grandi dimensioni sono probabilistici, c’è un elemento di casualità in ciò che producono. Lanciando 100 dadi si ottiene un modello. Lanciateli di nuovo e ne otterrete un altro. Anche se i dadi, come i modelli linguistici di grandi dimensioni, sono ponderati per produrre alcuni modelli molto più spesso di altri, i risultati non saranno sempre identici. Anche un errore su 1.000, o su 100.000, si aggiunge a molti errori se si considera quante volte al giorno viene utilizzata questa tecnologia.

Più questi modelli diventano accurati, più abbassiamo la guardia. Gli studi dimostrano che più i chatbot migliorano, più è probabile che le persone non si accorgano di un errore quando questo si verifica

Forse la soluzione migliore per l’allucinazione è gestire le nostre aspettative sullo scopo di questi strumenti. Quando all’avvocato che ha usato ChatGPT per generare documenti falsi è stato chiesto di spiegarsi, è sembrato sorpreso come chiunque altro da ciò che era accaduto. “Ho sentito parlare di questo nuovo sito, che ho erroneamente ritenuto essere, tipo, un super motore di ricerca”, ha detto a un giudice. “Non avevo capito che ChatGPT potesse fabbricare casi”.