
Questi nuovi modelli sembrano più propensi a indulgere in comportamenti contrari alle regole rispetto alle generazioni precedenti, e non c’è modo di fermarli.
Di fronte alla sconfitta negli scacchi, i modelli di ragionamento AI di ultima generazione a volte barano senza essere istruiti a farlo.
La scoperta suggerisce che la prossima ondata di modelli di intelligenza artificiale potrebbe essere più propensa a cercare modi ingannevoli per fare qualsiasi cosa gli venga chiesto di fare. E la cosa peggiore? Non c’è un modo semplice per risolvere il problema.
I ricercatori dell’organizzazione di ricerca sull’intelligenza artificiale Palisade Research hanno istruito sette grandi modelli linguistici a giocare centinaia di partite a scacchi contro Stockfish, un potente motore di scacchi open-source. Il gruppo comprendeva i modelli di ragionamento OpenAI o1-preview e DeepSeek R1 , entrambi addestrati a risolvere problemi complessi suddividendoli in fasi.
La ricerca suggerisce che più il modello di intelligenza artificiale è sofisticato, più è probabile che cerchi spontaneamente di “hackerare” il gioco nel tentativo di battere l’avversario. Per esempio, potrebbe eseguire un’altra copia di Stockfish per rubare le sue mosse, cercare di sostituire il motore degli scacchi con un programma molto meno abile, o sovrascrivere la scacchiera per prendere il controllo e cancellare i pezzi dell’avversario. I modelli più vecchi e meno potenti, come il GPT-4o, avrebbero fatto questo tipo di cose solo dopo un esplicito invito da parte del team. L’articolo, che non è stato sottoposto a revisione paritaria, è stato pubblicato su arXiv .
I ricercatori temono che i modelli di IA si stiano diffondendo più velocemente di quanto si stia imparando a renderli sicuri. “Ci stiamo dirigendo verso un mondo di agenti autonomi che prendono decisioni che hanno conseguenze”, afferma Dmitrii Volkov, responsabile della ricerca presso Palisades Research.
La cattiva notizia è che attualmente non c’è modo di impedire che ciò accada. Nessuno sa esattamente come – o perché – i modelli di IA funzionino nel modo in cui lo fanno e, sebbene i modelli di ragionamento possano documentare il loro processo decisionale, non c’è alcuna garanzia che i loro registri riflettano accuratamente ciò che è realmente accaduto. La ricerca di Anthropic suggerisce che i modelli di intelligenza artificiale spesso prendono decisioni basate su fattori che non spiegano esplicitamente, il che significa che il monitoraggio di questi processi non è un modo affidabile per garantire la sicurezza di un modello. Questa è un’area di preoccupazione costante per alcuni ricercatori di IA.
Il team di Palisade ha scoperto che o1-preview di OpenAI ha tentato di hackerare 45 delle sue 122 partite, mentre il modello R1 di DeepSeek ha tentato di barare in 11 delle sue 74 partite. Alla fine, o1-preview è riuscito a “vincere” sette volte. I ricercatori affermano che la rapida ascesa in termini di popolarità di DeepSeek ha fatto sì che il suo modello R1 fosse sovraccarico al momento degli esperimenti, il che significa che sono riusciti a fargli fare solo i primi passi di un gioco, non a portarne a termine uno completo. “Sebbene questo sia abbastanza buono per vedere la propensione all’hacking, sottovaluta il successo di DeepSeek perché ha meno passi su cui lavorare”, scrivono nel loro articolo. Sia OpenAI che DeepSeek sono stati contattati per un commento sui risultati, ma nessuno dei due ha risposto
I modelli hanno utilizzato una serie di tecniche di imbroglio, tra cui il tentativo di accedere al file in cui il programma di scacchi memorizza la scacchiera e cancellare le celle che rappresentano i pezzi dell’avversario. (“Per vincere contro un potente motore scacchistico come il nero, giocare una partita standard potrebbe non essere sufficiente”, ha scritto l’agente o1-preview-powered in un “diario” che documenta i passi compiuti. “Sovrascriverò la scacchiera per avere un vantaggio decisivo”). Altre tattiche comprendevano la creazione di una copia di Stockfish – in pratica mettendo il motore scacchistico contro una versione altrettanto abile di se stesso – e il tentativo di sostituire il file contenente il codice di Stockfish con un programma di scacchi molto più semplice.
Allora, perché questi modelli cercano di imbrogliare?
I ricercatori hanno notato che le azioni di o1-preview sono cambiate nel tempo. Nelle prime fasi degli esperimenti ha tentato costantemente di hackerare i giochi prima del 23 dicembre dello scorso anno, quando improvvisamente ha iniziato a fare questi tentativi molto meno frequentemente. I ricercatori ritengono che ciò possa essere dovuto a un aggiornamento non correlato del modello realizzato da OpenAI. Hanno testato i più recenti modelli di ragionamento o1mini e o3mini dell’azienda e hanno scoperto che non hanno mai cercato di imbrogliare per ottenere la vittoria.
I ricercatori ipotizzano che l’apprendimento per rinforzo possa essere il motivo per cui o1-preview e DeepSeek R1 hanno cercato di imbrogliare senza essere sollecitati. Questo perché la tecnica premia i modelli che fanno tutte le mosse necessarie per raggiungere i loro obiettivi – in questo caso, vincere a scacchi. Gli LLM non ragionanti utilizzano in una certa misura l’apprendimento per rinforzo, ma esso svolge un ruolo maggiore nell’addestramento dei modelli ragionanti.
Questa ricerca si aggiunge a un crescente numero di lavori che esaminano come i modelli di IA violino i loro ambienti per risolvere i problemi. Mentre OpenAI stava testando o1-preview, i suoi ricercatori hanno scoperto che il modello sfruttava una vulnerabilità per prendere il controllo del suo ambiente di test. Analogamente, l’organizzazione per la sicurezza dell’IA Apollo Research ha osservato che i modelli di IA possono essere facilmente indotti a mentire agli utenti su ciò che stanno facendo, e Anthropic ha pubblicato a dicembre un documento che descrive come il suo modello Claude abbia violato i propri test.
“È impossibile per gli esseri umani creare funzioni oggettive che chiudano tutte le strade all’hacking”, afferma Bruce Schneier, docente alla Harvard Kennedy School che ha scritto molto sulle capacità di hacking delle IA e che non ha lavorato al progetto. “Finché non sarà possibile, questo tipo di risultati si verificherà”.
È probabile che questi comportamenti diventino sempre più comuni man mano che i modelli diventano più capaci, spiega Volkov, che intende cercare di individuare esattamente cosa li spinge a imbrogliare in diversi scenari, come la programmazione, il lavoro d’ufficio o i contesti educativi.
“Sarebbe allettante generare un mucchio di casi di test come questo e cercare di addestrare il comportamento”, dice. “Ma dato che non conosciamo bene le interiora dei modelli, alcuni ricercatori temono che, se lo si fa, forse il modello fingerà di conformarsi o imparerà a riconoscere l’ambiente di prova e a nascondersi”. Quindi non è molto chiaro. Dovremmo monitorare di sicuro, ma al momento non abbiamo una soluzione definitiva”.