Il problema, probabilmente dovuto a una pulizia inadeguata dei dati, potrebbe portare ad allucinazioni, prestazioni scarse e usi impropri.
Subito dopo il rilascio di GPT-4o da parte di OpenAI, lunedì 13 maggio, alcuni utenti cinesi hanno iniziato a notare che qualcosa non quadrava in questa nuova versione del chatbot: i token che utilizza per analizzare il testo erano pieni di spam e frasi porno.
Il 14 maggio Tianle Cai, uno studente di dottorato dell’Università di Princeton che studia l’efficienza dell’inferenza in modelli linguistici di grandi dimensioni come quelli che alimentano i chatbot, ha avuto accesso alla libreria pubblica di token di GPT-4o e ha estratto un elenco dei 100 token cinesi più lunghi che il modello utilizza per analizzare e comprimere i messaggi in cinese.
Gli esseri umani leggono in parole, ma i Large Language Model leggono in token, ovvero unità distinte di una frase che hanno significati coerenti e significativi. Oltre alle parole del dizionario, questi includono anche suffissi, espressioni comuni, nomi e altro ancora. Più token codifica un modello, più velocemente riesce a “leggere” una frase e meno potenza di calcolo consuma, rendendo così la risposta più economica.
Dei 100 risultati, solo tre sono abbastanza comuni da essere usati nelle conversazioni di tutti i giorni; tutto il resto consisteva in parole ed espressioni usate specificamente nel contesto del gioco d’azzardo o della pornografia. Il token più lungo, della lunghezza di 10,5 caratteri cinesi, significa letteralmente “_video porno giapponese gratuito da guardare”. Ops.
“Questo è un po’ ridicolo”, ha scritto Cai, che ha pubblicato l’elenco dei token su GitHub.
OpenAI non ha risposto alle domande inviate da MIT Technology Review prima della pubblicazione.
GPT-4o dovrebbe essere migliore dei suoi predecessori nella gestione di compiti multilingue. In particolare, i progressi sono stati ottenuti grazie a un nuovo strumento di tokenizzazione che comprime meglio i testi in lingue diverse dall’inglese.
Ma almeno per quanto riguarda la lingua cinese, il nuovo tokenizer utilizzato da GPT-4o ha introdotto un numero sproporzionato di frasi senza senso. Secondo gli esperti, ciò è probabilmente dovuto a un’insufficiente pulizia e filtraggio dei dati prima dell’addestramento del tokenizer.
Poiché questi token non sono parole o frasi pronunciate comunemente, il chatbot può non riuscire a comprenderne il significato. I ricercatori sono stati in grado di sfruttare questo aspetto e di ingannare GPT-4o inducendolo a dare risposte allucinanti o addirittura a eludere le protezioni di sicurezza messe in atto da OpenAI.
Perché i token non inglesi sono importanti
Il modo più semplice per un modello di elaborare il testo è carattere per carattere, ma è ovviamente più lungo e laborioso che riconoscere che una certa stringa di caratteri, come “c-r-y-p-t-o-c-u-r-r-e-n-c-y”, significa sempre la stessa cosa. Queste serie di caratteri sono codificate come “token” che il modello può utilizzare per elaborare le richieste. L’inclusione di un numero maggiore di token e di una lunghezza maggiore significa di solito che i LLM sono più efficienti e convenienti per gli utenti, che spesso vengono fatturati per token.
Quando OpenAI ha rilasciato GPT-4o il 13 maggio, ha anche rilasciato un nuovo tokenizer per sostituire quello usato nelle versioni precedenti, GPT-3.5 e GPT-4. Secondo il sito web di OpenAI, il nuovo tokenizer aggiunge soprattutto il supporto per le lingue non inglesi.
Il nuovo tokenizer ha 200.000 token in totale, e circa il 25% sono in lingue diverse dall’inglese, spiega Deedy Das, un investitore in AI di Menlo Ventures. Ha utilizzato dei filtri linguistici per contare il numero di token in diverse lingue e le lingue principali, oltre all’inglese, sono il russo, l’arabo e il vietnamita.
“Quindi l’impatto principale del tokenizer, a mio avviso, è la riduzione dei costi in queste lingue, e non l’aumento della qualità in queste lingue”, afferma Das. Quando un LLM dispone di token migliori e più lunghi in lingue diverse dall’inglese, può analizzare le richieste più velocemente e far pagare meno agli utenti per la stessa risposta. Con il nuovo tokenizer, “la riduzione dei costi è quasi quattro volte superiore”, afferma Das.
Das, che parla anche hindi e bengalese, ha analizzato i token più lunghi in queste lingue. I token riflettono le discussioni che avvengono in quelle lingue, quindi includono parole come “Narendra” o “Pakistan”, ma anche termini inglesi comuni come “Prime Minister”, “university” e “international” compaiono frequentemente. Inoltre, non presentano i problemi che caratterizzano i token cinesi.
Questo probabilmente riflette i dati di formazione in quelle lingue, dice Das: “La mia teoria di lavoro è che i siti web in hindi e bengalese sono molto rudimentali. Si tratta per lo più di articoli di notizie. Quindi mi aspetto che sia così. Non ci sono molti bot di spam e siti web porno che cercano di fare affari in queste lingue. Si tratterà per lo più di siti in inglese”.
Dati inquinati e mancanza di pulizia
Tuttavia, le cose sono drasticamente diverse in cinese. Secondo diversi ricercatori che hanno esaminato la nuova libreria di token utilizzata per GPT-4o, i token più lunghi in cinese sono quasi esclusivamente parole di spam utilizzate in contesti di pornografia, gioco d’azzardo e truffa. Anche i token più brevi, come le parole cinesi di tre caratteri, riflettono in misura significativa questi argomenti.
“Il problema è chiaro: il corpus utilizzato per addestrare [il tokenizer] non è pulito. I token inglesi sembrano a posto, ma quelli cinesi non lo sono”, afferma Cai dell’Università di Princeton. Non è raro che un modello linguistico possa raccogliere spam durante la raccolta dei dati di addestramento, ma di solito si compie uno sforzo significativo per ripulire i dati prima di utilizzarli. “È possibile che non abbiano fatto un’adeguata pulizia dei dati per quanto riguarda il cinese”, afferma Cai.
Il contenuto di questi token cinesi potrebbe far pensare che siano stati inquinati da un fenomeno specifico: siti web che dirottano contenuti non correlati in cinese o in altre lingue per incrementare i messaggi di spam.
Questi messaggi sono spesso pubblicità di video pornografici e siti di gioco d’azzardo. Potrebbero essere aziende reali o semplici truffe. La lingua viene inserita in siti web di content farm o talvolta in siti web legittimi, in modo che possano essere indicizzati dai motori di ricerca, eludere i filtri antispam e comparire nelle ricerche casuali. Ad esempio, Google ha indicizzato una pagina di risultati di ricerca su un sito web del National Institutes of Health degli Stati Uniti, che elenca un sito porno in cinese. Il nome dello stesso sito è apparso anche in almeno cinque token cinesi nel GPT-4o.
Gli utenti cinesi hanno segnalato che quest’anno questi siti di spam sono apparsi spesso nei risultati di ricerca di Google non correlati, anche nei commenti inviati alla comunità di supporto di Google Search. È probabile che questi siti web siano finiti anche nel database di addestramento di OpenAI per il nuovo tokenizer di GPT-4o.
Lo stesso problema non esisteva con il tokenizer di precedente generazione e con i token cinesi utilizzati per GPT-3.5 e GPT-4, afferma Zhengyang Geng, dottorando in informatica presso la Carnegie Mellon University. I token cinesi più lunghi sono termini comuni come “cicli di vita” o “autogenerazione”.
Das, che ha lavorato per tre anni nel team di Google Search, afferma che la prevalenza di contenuti spam è un problema noto e non è difficile da risolvere. “Ogni problema di spam ha una soluzione. E non c’è bisogno di coprire tutto con un’unica tecnica”, afferma. Anche soluzioni semplici, come la richiesta di una traduzione automatica del contenuto quando si rilevano determinate parole chiave, potrebbero “farvi percorrere il 60% della strada”, aggiunge.
Ma è probabile che OpenAI non abbia pulito il set di dati cinesi o i token prima del rilascio di GPT-4o, dice Das: “In fin dei conti, non credo che abbiano fatto il lavoro in questo caso”.
Non è chiaro se siano interessate altre lingue. Un utente di X ha segnalato una simile prevalenza di contenuti porno e di gioco d’azzardo nei token coreani.
I token possono essere utilizzati per il jailbreak
Gli utenti hanno anche scoperto che questi token possono essere usati per rompere il LLM, facendogli emettere risposte completamente estranee o, in rari casi, per generare risposte non consentite dagli standard di sicurezza di OpenAI.
Geng della Carnegie Mellon University ha chiesto a GPT-4o di tradurre in inglese alcuni dei lunghi token cinesi. Il modello ha quindi proceduto a tradurre parole che non erano mai state incluse nelle richieste, un risultato tipico delle allucinazioni LLM.
È riuscito anche a usare gli stessi token per “jailbreakare” GPT-4, cioè per far sì che il modello generi cose che non dovrebbe. “È abbastanza facile usare questi token [raramente usati] per indurre comportamenti non definiti dai modelli”, dice Geng. “Ho fatto alcuni esperimenti personali di red-teaming… L’esempio più semplice è chiedergli di costruire una bomba. In una condizione normale, rifiuterebbe, ma se prima si usano queste parole rare per farlo evadere, allora inizierà a seguire i vostri ordini. Una volta che avrà iniziato a seguire i vostri ordini, potrete fargli ogni tipo di domanda”.
Nei suoi test, che Geng sceglie di non condividere con il pubblico, dice di poter vedere GPT-4o generare le risposte riga per riga. Ma quando arriva quasi alla fine, entra in funzione un altro meccanismo di sicurezza che rileva i contenuti non sicuri e li blocca per non mostrarli all’utente.
Il fenomeno non è insolito nei LLM, afferma Sander Land, ingegnere di apprendimento automatico presso Cohere, un’azienda canadese di AI. Land e il suo collega Max Bartolo hanno recentemente redatto un documento su come individuare i token insoliti che possono essere utilizzati per causare il malfunzionamento dei modelli. Uno degli esempi più famosi è stato “_SolidGoldMagikarp”, un nome utente di Reddit che si è scoperto essere in grado di far generare a ChatGPT risposte non correlate, strane e non sicure.
Il problema risiede nel fatto che a volte il tokenizer e il LLM vero e proprio sono addestrati su set di dati diversi, e ciò che era prevalente nel set di dati del tokenizer non lo è nel set di dati del LLM per qualsiasi motivo. Il risultato è che mentre il tokenizer individua alcune parole che vede di frequente, il modello non è sufficientemente addestrato su di esse e non comprende mai appieno il significato di questi tokens “sotto-addestrati”. Nel caso di “_SolidGoldMagikarp”, il nome utente è stato probabilmente incluso nei dati di addestramento del tokenizer ma non in quelli di GPT, lasciando GPT in difficoltà su cosa fare con il token. “E se deve dire qualcosa… riceve un segnale casuale e può fare cose molto strane”, spiega Land.
E i diversi modelli potrebbero avere problemi diversi in questa situazione. “Ad esempio, Llama 3 restituisce sempre uno spazio vuoto, ma a volte parla dello spazio vuoto come se ci fosse qualcosa. Con altri modelli, penso a Gemini, quando gli si dà uno di questi token, fornisce un bellissimo saggio su El Niño, e [la domanda] non aveva nulla a che fare con El Niño”, dice Land.
Per risolvere questo problema, il set di dati utilizzato per l’addestramento del tokenizer deve rappresentare bene il set di dati per il LLM, in modo che non ci siano discrepanze tra i due. Se il modello attuale è stato sottoposto a filtri di sicurezza per eliminare i contenuti pornografici o di spam, gli stessi filtri dovrebbero essere applicati ai dati del tokenizer. In realtà, questo a volte è difficile da fare, perché l’addestramento dei LLM richiede mesi e comporta un miglioramento costante, con il filtraggio dei contenuti spam, mentre l’addestramento dei token avviene solitamente in una fase iniziale e può non comportare lo stesso livello di filtraggio.
Anche se gli esperti concordano sul fatto che non è troppo difficile risolvere il problema, potrebbe diventare complicato quando il risultato viene inserito in processi multi-step all’interno del modello, o quando i token e i modelli inquinati vengono ereditati nelle iterazioni future. Ad esempio, non è ancora possibile testare pubblicamente le funzioni video e audio di GPT-4o e non è chiaro se soffrano degli stessi problemi che possono essere causati da questi token cinesi.
“La robustezza degli input visivi è peggiore di quella degli input testuali nei modelli multimodali”, afferma Geng, la cui ricerca si concentra sui modelli visivi. Filtrare un insieme di dati testuali è relativamente facile, ma filtrare gli elementi visivi sarà ancora più difficile. “Lo stesso problema dei token di spam cinesi potrebbe diventare più grave con i token visivi”, afferma Geng.