Trovare set di dati di alta qualità è difficile a causa del funzionamento di Internet in Cina.
La scorsa settimana il rilascio di GPT-4o, un nuovo “omnimodello” di intelligenza artificiale con cui è possibile interagire utilizzando la voce, il testo o il video, doveva essere un momento importante per OpenAI. Ma a pochi giorni di distanza, sembra che l’azienda sia in grossi guai. Dalle dimissioni della maggior parte del suo team di sicurezza all’accusa di Scarlett Johansson di aver replicato la sua voce per il modello contro il suo consenso, l’azienda è ora in modalità di controllo dei danni.
A ciò si aggiunge un altro problema di OpenAI con GPT-4o: i dati utilizzati per addestrare il suo tokenizer – uno strumento che aiuta il modello ad analizzare ed elaborare il testo in modo più efficiente – sono inquinati da siti web cinesi di spam. Di conseguenza, la libreria di token cinesi del modello è piena di frasi legate alla pornografia e al gioco d’azzardo. Questo potrebbe aggravare alcuni problemi comuni ai modelli di intelligenza artificiale: allucinazioni, scarse prestazioni e uso improprio.
Ne ho scritto venerdì, dopo che diversi ricercatori e addetti ai lavori dell’industria dell’IA avevano segnalato il problema. Hanno dato un’occhiata alla libreria di token pubblici di GPT-4o, che è stata aggiornata in modo significativo con il nuovo modello per migliorare il supporto delle lingue non inglesi, e hanno visto che più di 90 dei 100 token cinesi più lunghi presenti nel modello provengono da siti web di spam. Si tratta di frasi come “_video porno giapponese gratis da guardare”, “scommesse sulle auto da corsa a Pechino” e “lotteria del benessere in Cina ogni giorno”.
Chiunque legga il cinese può individuare subito il problema di questo elenco di token. Alcune frasi di questo tipo finiscono inevitabilmente nei set di dati per l’addestramento a causa della popolarità dei contenuti per adulti online, ma che rappresentino il 90% della lingua cinese utilizzata per addestrare il modello è allarmante.
“È una cosa imbarazzante da vedere per un cinese. È solo la qualità dei dati [cinesi]? È a causa di una pulizia insufficiente dei dati o è la lingua ad essere così?”, afferma Zhengyang Geng, dottorando in informatica presso la Carnegie Mellon University.
Si potrebbe essere tentati di trarre conclusioni su una lingua o una cultura dai token scelti da OpenAI per il GPT-4o. Dopotutto, si tratta di frasi comunemente viste e significative delle rispettive lingue. C’è un interessante post sul blog di un ricercatore di Hong Kong, Henry Luo, che ha analizzato i token GPT-4o più lunghi in varie lingue e ha scoperto che sembrano avere temi diversi. Mentre i token in russo riflettono il linguaggio del governo e delle istituzioni pubbliche, quelli in giapponese hanno molti modi diversi per dire “grazie”.
Ma piuttosto che riflettere le differenze tra culture o paesi, credo che questo spieghi meglio il tipo di dati di addestramento facilmente disponibili online e i siti web che OpenAI ha cercato per alimentare il GPT-4o.
Dopo che ho pubblicato l’articolo, Victor Shih, professore di scienze politiche all’Università della California, San Diego, ha commentato su X: “Quando cerchi di non [allenarti] sui contenuti dei media statali cinesi, questo è ciò che ottieni”.
Si tratta per metà di uno scherzo e per metà di un’osservazione seria sui due maggiori problemi nell’addestramento di modelli linguistici di grandi dimensioni per parlare cinese: i dati facilmente disponibili online riflettono il modo “ufficiale” e sanzionato di parlare della Cina o l’onnipresente contenuto di spam che oscura le conversazioni reali.
In effetti, tra i pochi token lunghi in cinese presenti nel GPT-4o che non sono pornografia o gioco d’azzardo, due sono “socialismo con caratteristiche cinesi” e “Repubblica Popolare Cinese”. La presenza di queste frasi suggerisce che una parte significativa dei dati di addestramento proviene da scritti dei media statali cinesi, dove le espressioni formali e lunghe sono estremamente comuni.
OpenAI è sempre stata molto riservata sui dati che utilizza per addestrare i suoi modelli, e probabilmente non ci dirà mai quanta parte del suo database di addestramento cinese è costituita da media statali e quanta da spam. (OpenAI non ha risposto alle domande dettagliate inviate venerdì da MIT Technology Review).
Ma non è l’unica azienda a dover affrontare questo problema. Le persone che lavorano in Cina nel settore dell’IA concordano sulla mancanza di serie di dati testuali cinesi di qualità per l’addestramento dei LLM. Uno dei motivi è che l’internet cinese era, ed è ancora in gran parte, diviso tra grandi aziende come Tencent e ByteDance. Queste aziende possiedono la maggior parte delle piattaforme social e non hanno intenzione di condividere i loro dati con i concorrenti o con terze parti per addestrare i LLM.
In effetti, questo è anche il motivo per cui i motori di ricerca, compreso Google, fanno un po’ schifo quando si tratta di effettuare ricerche in cinese. Poiché i contenuti di WeChat possono essere cercati solo su WeChat e quelli di Douyin (il TikTok cinese) possono essere cercati solo su Douyin, questi dati non sono accessibili a un motore di ricerca di terze parti, tanto meno a un LLM. Ma queste sono le piattaforme dove avvengono vere e proprie conversazioni umane, invece di qualche sito web di spam che cerca di attirare l’utente verso il gioco d’azzardo online.
La mancanza di dati di addestramento di qualità è un problema molto più grave dell’incapacità di filtrare il porno e le assurdità generali nei dati di addestramento dei token di GPT-4o. Se non c’è un set di dati esistente, le aziende di IA devono impegnarsi a fondo per identificare, reperire e curare i propri set di dati e filtrare i contenuti inappropriati o tendenziosi.
Non sembra che OpenAI l’abbia fatto, il che, in tutta onestà, ha un certo senso, visto che i cinesi non possono comunque utilizzare i suoi modelli di intelligenza artificiale.
Tuttavia, ci sono molte persone che vivono al di fuori della Cina e che vogliono utilizzare i servizi di IA in cinese. E meritano un prodotto che funzioni correttamente tanto quanto i parlanti di qualsiasi altra lingua.