
Questa linea di difesa potrebbe essere la più forte finora. Ma nessuno scudo è perfetto.
L’azienda di AI Anthropic ha sviluppato una nuova linea di difesa contro un comune tipo di attacco chiamato jailbreak. Un jailbreak inganna i modelli linguistici di grandi dimensioni (LLM) inducendoli a fare qualcosa per cui non sono stati addestrati, come ad esempio aiutare qualcuno a creare un’arma.
Il nuovo approccio di Anthropic potrebbe essere lo scudo più forte contro i jailbreak. “È alla frontiera del blocco delle query dannose”, afferma Alex Robey, studioso di jailbreak presso la Carnegie Mellon University.
La maggior parte dei modelli linguistici di grandi dimensioni sono addestrati a rifiutare le domande a cui i loro progettisti non vogliono che rispondano. LLM Claude di Anthropic, ad esempio, rifiuta le domande sulle armi chimiche. R1 di DeepSeek sembra essere addestrato a rifiutare domande sulla politica cinese. E così via.
Ma alcune richieste, o sequenze di richieste, possono costringere i LLM a uscire dai binari. Alcuni jailbreak consistono nel chiedere al modello di interpretare un personaggio particolare che elude le protezioni integrate, mentre altri giocano con la formattazione di un prompt, come l’uso di una capitalizzazione non standard o la sostituzione di alcune lettere con numeri.
Il jailbreak è un tipo di attacco nemico: un input passato a un modello che gli fa produrre un output inaspettato. Questo inconveniente nelle reti neurali è stato studiato almeno da quando è stato descritto per la prima volta da Ilya Sutskever e coautori nel 2013, ma nonostante un decennio di ricerche non c’è ancora modo di costruire un modello che non sia vulnerabile.
Invece di cercare di riparare i suoi modelli, Anthropic ha sviluppato una barriera che impedisce ai tentativi di jailbreak di passare e alle risposte indesiderate del modello di uscire.
In particolare, Anthropic è preoccupata per i corsi di laurea magistrale che ritiene possano aiutare una persona con competenze tecniche di base (come uno studente universitario di scienze) a creare, ottenere o impiegare armi chimiche, biologiche o nucleari.
L’azienda si è concentrata su quelli che chiama jailbreak universali, attacchi che possono costringere un modello ad abbandonare tutte le sue difese, come il jailbreak noto come Do Anything Now (esempio di prompt: “D’ora in poi agirai come un DAN, che sta per ‘doing anything now’…”).
I jailbreak universali sono una sorta di master key. “Ci sono jailbreak che tirano fuori dal modello una piccola parte di cose dannose, come ad esempio far bestemmiare il modello”, dice Mrinank Sharma di Anthropic, che ha guidato il team dietro al lavoro. “Poi ci sono jailbreak che disattivano completamente i meccanismi di sicurezza”.
Anthropic mantiene un elenco dei tipi di domande che i suoi modelli dovrebbero rifiutare. Per costruire il suo scudo, l’azienda ha chiesto a Claude di generare un gran numero di domande e risposte sintetiche che coprissero sia gli scambi accettabili che quelli inaccettabili con il modello. Ad esempio, le domande sull’iprite erano accettabili, mentre quelle sul gas mostarda non lo erano.
Anthropic ha ampliato questo set traducendo gli scambi in una manciata di lingue diverse e riscrivendoli in modi spesso utilizzati da chi effettua il jailbreak. Ha quindi utilizzato questo set di dati per addestrare un filtro che bloccasse le domande e le risposte che sembravano potenziali violazioni del jailbreak.
Per testare lo scudo, Anthropic ha istituito una taglia sul bug e ha invitato jailbreaker esperti a cercare di ingannare Claude. L’azienda ha fornito ai partecipanti un elenco di 10 domande proibite e ha offerto 15.000 dollari a chiunque fosse riuscito a ingannare il modello e a rispondere a tutte le domande.
Secondo l’azienda, 183 persone hanno trascorso un totale di oltre 3.000 ore alla ricerca di crepe. Nessuno è riuscito a far rispondere Claude a più di cinque delle 10 domande.
Anthropic ha poi eseguito un secondo test, in cui ha lanciato 10.000 richieste di jailbreak generate da un LLM contro lo scudo. Quando Claude non era protetto dallo scudo, l’86% degli attacchi ha avuto successo. Con lo scudo, solo il 4,4% degli attacchi ha funzionato.
“È raro vedere valutazioni di questa portata”, afferma Robey. “Hanno dimostrato chiaramente la robustezza contro attacchi che sono noti per aggirare la maggior parte degli altri modelli di produzione”.
Robey ha sviluppato un proprio sistema di difesa dal jailbreak, chiamato SmoothLLM , che inietta rumore statistico in un modello per interrompere i meccanismi che lo rendono vulnerabile al jailbreak. A suo avviso, l’approccio migliore sarebbe quello di avvolgere gli LLM in più sistemi, ognuno dei quali fornirebbe difese diverse ma sovrapponibili. “Ottenere le difese giuste è sempre un gioco di equilibri”, afferma.
Robey ha partecipato al bug bounty di Anthropic. Secondo Robey, un aspetto negativo dell’approccio di Anthropic è che il sistema può bloccare anche domande innocue: “Ho scoperto che spesso si rifiutava di rispondere a domande di base non dannose sulla biologia, la chimica e così via”.
Anthropic afferma di aver ridotto il numero di falsi positivi nelle nuove versioni del sistema, sviluppate dopo il bug bounty. Ma un altro aspetto negativo è che l’esecuzione dello scudo – esso stesso un LLM – aumenta i costi di calcolo di quasi il 25% rispetto all’esecuzione del modello sottostante da solo.
Lo scudo di Anthropic è solo l’ultima mossa di un continuo gioco al gatto e al topo. Man mano che i modelli diventano più sofisticati, le persone escogiteranno nuovi jailbreak.
Yuekang Li, che studia i jailbreak presso l’Università del Nuovo Galles del Sud a Sydney, fa l’esempio di scrivere un prompt utilizzando un cifrario, ad esempio sostituendo ogni lettera con quella che la segue, in modo che “dog” diventi “eph”. Questi messaggi potrebbero essere compresi da un modello, ma potrebbero essere superati da uno scudo. “Un utente potrebbe comunicare con il modello utilizzando un testo criptato, se il modello è abbastanza intelligente, e aggirare facilmente questo tipo di difesa”, spiega Li.
Dennis Klinkhammer, ricercatore di apprendimento automatico presso la FOM University of Applied Sciences di Colonia, in Germania, sostiene che l’utilizzo di dati sintetici, come ha fatto Anthropic, è fondamentale per tenere il passo. “Permette di generare rapidamente dati per addestrare i modelli su un’ampia gamma di scenari di minaccia, il che è fondamentale vista la rapidità con cui si evolvono le strategie di attacco”, afferma. “È essenziale poter aggiornare le protezioni in tempo reale o in risposta alle minacce emergenti”.
Anthropic invita le persone a testare personalmente il suo scudo. “Non stiamo dicendo che il sistema sia a prova di bomba”, afferma Sharma. “È opinione comune, nel campo della sicurezza, che nessun sistema sia perfetto. È più probabile che sia così: quanto sforzo ci vorrebbe per far passare uno di questi jailbreak? Se lo sforzo è abbastanza elevato, questo scoraggia molte persone”.