In molte situazioni ad alto rischio, i modelli linguistici di grandi dimensioni non sono affidabili. Sapere quali output scartare potrebbe risolvere il problema.
I modelli linguistici di grandi dimensioni sono famosi per la loro capacità di inventare cose, anzi, è la cosa che sanno fare meglio. Ma la loro incapacità di distinguere i fatti dalla finzione ha lasciato molte aziende a chiedersi se il loro utilizzo valga la pena.
Un nuovo strumento creato da Cleanlab, una startup di intelligenza artificiale nata da un laboratorio di calcolo quantistico del MIT, è stato progettato per dare agli utenti di giochi d’azzardo un’idea più chiara di quanto questi modelli siano realmente affidabili. Chiamato Trustworthy Language Model (modello linguistico degno di fiducia), assegna a qualsiasi risultato generato da un modello linguistico di grandi dimensioni un punteggio compreso tra 0 e 1, in base alla sua affidabilità. In questo modo si può scegliere di quali risposte fidarsi e quali scartare. In altre parole: un BS-o-meter per i chatbot.
Cleanlab spera che il suo strumento renda i modelli linguistici di grandi dimensioni più attraenti per le aziende preoccupate di quanto inventano. “Credo che le persone sappiano che i LLM cambieranno il mondo, ma si sono lasciate prendere dalle allucinazioni”, afferma Curtis Northcutt, CEO di Cleanlab.
I chatbot stanno rapidamente diventando il modo dominante con cui le persone cercano informazioni su un computer. I motori di ricerca sono stati riprogettati sulla base di questa tecnologia. I software per ufficio utilizzati da miliardi di persone ogni giorno per creare qualsiasi cosa, dai compiti scolastici alle copie di marketing ai rapporti finanziari, sono ora dotati di chatbot integrati. Eppure uno studio pubblicato a novembre da Vectara, una startup fondata da ex dipendenti di Google, ha rilevato che i chatbot inventano informazioni almeno il 3% delle volte. Potrebbe non sembrare molto, ma è un potenziale di errore che la maggior parte delle aziende non digerisce.
Lo strumento di Cleanlab è già utilizzato da alcune aziende, tra cui Berkeley Research Group, una società di consulenza con sede nel Regno Unito specializzata in controversie e indagini aziendali. Steven Gawthorpe, direttore associato di Berkeley Research Group, afferma che il Trustworthy Language Model è la prima soluzione praticabile al problema dell’allucinazione che abbia mai visto: “Il TLM di Cleanlab ci dà la potenza di migliaia di data scientist”.
Nel 2021, Cleanlab ha sviluppato una tecnologia in grado di scoprire gli errori in 10 popolari set di dati utilizzati per addestrare gli algoritmi di apprendimento automatico; funziona misurando le differenze di output tra una serie di modelli addestrati su quei dati. Questa tecnologia è ora utilizzata da diverse grandi aziende, tra cui Google, Tesla e il gigante bancario Chase. Il Trustworthy Language Model riprende la stessa idea di base, ossia che le divergenze tra i modelli possono essere utilizzate per misurare l’affidabilità del sistema nel suo complesso, e la applica ai chatbot.
In una dimostrazione che Cleanlab ha fornito al MIT Technology Review la scorsa settimana, Northcutt ha digitato una semplice domanda in ChatGPT: “Quante volte la lettera ‘n’ appare in ‘enter’?”. ChatGPT ha risposto: “La lettera ‘n’ compare una volta nella parola ‘enter'”. Questa risposta corretta promuove la fiducia. Ma ponendo la domanda un altro paio di volte, ChatGPT risponde: “La lettera ‘n’ compare due volte nella parola ‘enter'”.
“Non solo si sbaglia spesso, ma è anche casuale, non si sa mai che cosa produrrà”, dice Northcutt. “Perché diavolo non può dirci che dà sempre risposte diverse?”.
L’obiettivo di Cleanlab è quello di rendere più esplicita questa casualità. Northcutt pone la stessa domanda al Trustworthy Language Model. “La lettera ‘n’ compare una volta nella parola ‘enter'”, dice, e assegna un punteggio di 0,63 alla risposta. Sei su 10 non è un buon punteggio, e suggerisce che non ci si può fidare della risposta del chatbot a questa domanda.
È un esempio elementare, ma rende l’idea. Senza il punteggio, si potrebbe pensare che il chatbot sappia di cosa sta parlando, dice Northcutt. Il problema è che i data scientist che testano modelli linguistici di grandi dimensioni in situazioni ad alto rischio potrebbero essere fuorviati da alcune risposte corrette e presumere che anche le risposte future saranno corrette: “Provano le cose, fanno qualche esempio e pensano che funzioni. E poi fanno cose che portano a decisioni aziendali davvero sbagliate”.
Il Trustworthy Language Model si avvale di diverse tecniche per calcolare i suoi punteggi. In primo luogo, ogni query inviata allo strumento viene inviata a uno o più modelli linguistici di grandi dimensioni. Secondo Northcutt, la tecnologia funziona con qualsiasi modello, compresi quelli closed-source come la serie GPT di OpenAI, i modelli alla base di ChatGPT e quelli open-source come DBRX, sviluppato dall’azienda di AI Databricks di San Francisco. Se le risposte di ciascuno di questi modelli sono uguali o simili, contribuiranno a ottenere un punteggio più alto.
Allo stesso tempo, il Trustworthy Language Model invia anche variazioni della query originale a ciascuno dei modelli, scambiando le parole che hanno lo stesso significato. Anche in questo caso, se le risposte alle query sinonime sono simili, contribuiranno ad aumentare il punteggio. “Li manipoliamo in modi diversi per ottenere risultati diversi e vedere se sono d’accordo”, spiega Northcutt.
Lo strumento può anche far sì che più modelli si scambino le risposte: “È come se dicesse: “Ecco la mia risposta, cosa ne pensi?”, “Ecco la mia, cosa ne pensi?”. E li si lascia parlare”. Queste interazioni sono monitorate e misurate e confluiscono nel punteggio.
Nick McKenna, informatico presso la Microsoft Research di Cambridge, Regno Unito, che lavora su modelli linguistici di grandi dimensioni per la generazione di codice, è ottimista sul fatto che l’approccio possa essere utile. Ma dubita che sarà perfetto. “Una delle insidie che vediamo nelle allucinazioni dei modelli è che possono insinuarsi in modo molto sottile”, afferma.
In una serie di test su diversi modelli linguistici di grandi dimensioni, Cleanlab dimostra che i suoi punteggi di affidabilità sono ben correlati con l’accuratezza delle risposte dei modelli. In altre parole, i punteggi prossimi a 1 corrispondono a risposte corrette, mentre quelli prossimi a 0 corrispondono a risposte errate. In un altro test, è emerso che l’uso del modello linguistico affidabile con GPT-4 ha prodotto risposte più affidabili rispetto all’uso di GPT-4 da solo.
I grandi modelli linguistici generano testo prevedendo la parola successiva più probabile in una sequenza. Nelle versioni future del suo strumento, Cleanlab intende rendere i punteggi ancora più precisi attingendo alle probabilità utilizzate da un modello per fare queste previsioni. Vuole anche accedere ai valori numerici che i modelli assegnano a ogni parola del loro vocabolario e che utilizzano per calcolare le probabilità. Questo livello di dettaglio è fornito da alcune piattaforme, come Bedrock di Amazon, che le aziende possono utilizzare per eseguire modelli linguistici di grandi dimensioni.
Cleanlab ha testato il suo approccio sui dati forniti da Berkeley Research Group. L’azienda doveva cercare riferimenti a problemi di conformità sanitaria in decine di migliaia di documenti aziendali. Per farlo a mano, il personale specializzato può impiegare settimane. Verificando i documenti con il Trustworthy Language Model, Berkeley Research Group è stata in grado di individuare i documenti su cui il chatbot era meno sicuro e di controllare solo quelli. Il carico di lavoro si è ridotto di circa l’80%, spiega Northcutt.
In un altro test, Cleanlab ha collaborato con una grande banca (Northcutt non ne ha voluto fare il nome, ma dice che è un concorrente di Goldman Sachs). Come nel caso del Berkeley Research Group, la banca doveva cercare riferimenti a richieste di risarcimento assicurativo in circa 100.000 documenti. Anche in questo caso, il Trustworthy Language Model ha ridotto di oltre la metà il numero di documenti che dovevano essere controllati a mano.
Eseguire ogni query più volte attraverso più modelli richiede più tempo e costa molto di più rispetto al tipico back-and-forth con un singolo chatbot. Ma Cleanlab sta proponendo il Trustworthy Language Model come un servizio premium per automatizzare compiti ad alto rischio che in passato sarebbero stati off limits per i modelli linguistici di grandi dimensioni. L’idea non è quella di sostituire i chatbot esistenti, ma di svolgere il lavoro degli esperti umani. Se lo strumento è in grado di ridurre il tempo necessario per assumere economisti o avvocati qualificati a 2.000 dollari l’ora, i costi ne varranno la pena, afferma Northcutt.
A lungo termine, Northcutt spera che, riducendo l’incertezza delle risposte dei chatbot, la sua tecnologia sbloccherà la promessa dei modelli linguistici di grandi dimensioni per una gamma più ampia di utenti. “L’allucinazione non è un problema di modelli linguistici di grandi dimensioni”, afferma Northcutt. “È un problema di incertezza”.