Gli autoencoder ci permettono di sbirciare nella scatola nera dell’intelligenza artificiale. Potrebbero aiutarci a creare un’intelligenza artificiale più comprensibile e più facilmente controllabile.
L’intelligenza artificiale ha portato alla scoperta di nuovi farmaci e a novità nel settore della robotica e sta per rivoluzionare completamente il modo in cui interagiamo con le macchine e il web. L’unico problema è che non sappiamo esattamente come funziona e perché funziona così bene. Ne abbiamo un’idea, ma i dettagli sono troppo complessi per poterli analizzare. Questo è un problema: potrebbe portarci a impiegare un sistema di intelligenza artificiale in un campo altamente sensibile come la medicina senza capire che potrebbe avere difetti critici incorporati nel suo funzionamento.
Un team di Google DeepMind che studia la cosiddetta interpretabilità meccanicistica ha lavorato a nuovi modi per permetterci di sbirciare sotto il cofano. Alla fine di luglio ha rilasciato Gemma Scope, uno strumento che aiuta i ricercatori a capire cosa succede quando l’intelligenza artificiale genera un output. La speranza è che, se riusciamo a capire meglio cosa succede all’interno di un modello di intelligenza artificiale, saremo in grado di controllare i suoi output in modo più efficace, portando a sistemi di intelligenza artificiale migliori in futuro.
“Voglio essere in grado di guardare all’interno di un modello e vedere se è ingannevole”, dice Neel Nanda, che dirige il team di interpretabilità meccanicistica di Google DeepMind. “Sembra che essere in grado di leggere la mente di un modello dovrebbe aiutare”.
L’interpretabilità meccanicistica, nota anche come “mech interp”, è un nuovo campo di ricerca che mira a capire come funzionano effettivamente le reti neurali. Al momento, in pratica, inseriamo degli input in un modello sotto forma di molti dati e poi otteniamo un insieme di pesi del modello alla fine dell’addestramento. Questi sono i parametri che determinano il modo in cui il modello prende le decisioni. Abbiamo un’idea di ciò che accade tra gli input e i pesi del modello: in sostanza, l’intelligenza artificiale trova modelli nei dati e trae conclusioni da questi modelli, ma questi modelli possono essere incredibilmente complessi e spesso molto difficili da interpretare per gli esseri umani.
È come se un insegnante rivedesse le risposte di un complesso problema di matematica durante un test. Lo studente – l’intelligenza artificiale, in questo caso – ha scritto la risposta corretta, ma il lavoro appare come un mucchio di linee e ghirigori. Questo esempio presuppone che l’intelligenza artificiale ottenga sempre la risposta corretta, ma ciò non è sempre vero; lo studente-intelligenza artificiale potrebbe aver trovato uno schema irrilevante, che presume valido. Ad esempio, alcuni sistemi di intelligenza artificiale attuali danno come risultato che 9,11 è più grande di 9,8. Diversi metodi sviluppati nel campo dell’interpretabilità meccanicistica stanno iniziando a fare un po’ di luce su ciò che potrebbe accadere, dando essenzialmente un senso a questi ghirigori.
“Uno degli obiettivi principali dell’interpretabilità meccanicistica è cercare di decodificare gli algoritmi all’interno di questi sistemi”, spiega Nanda. “Diamo al modello una richiesta, come ‘Scrivi una poesia’, e lui scrive dei versi in rima. Qual è l’algoritmo con cui ha fatto questo? Ci piacerebbe capirlo”.
Per trovare caratteristiche – o categorie di dati che rappresentano un concetto più ampio – nel suo modello di intelligenza artificiale, Gemma, DeepMind ha utilizzato uno strumento noto come “sparse autoencoder” su ciascuno dei suoi livelli. Si può pensare a un autoencoder sparso come a un microscopio che ingrandisce gli strati e permette di osservarne i dettagli. Per esempio, se chiedete a Gemma di parlare di un chihuahua, si attiverà la funzione “cani”, illuminando ciò che il modello sa sui “cani”. Il motivo per cui è considerato “sparse” è che limita il numero di neuroni utilizzati, spingendo fondamentalmente per una rappresentazione più efficiente e generalizzata dei dati.
La parte difficile degli autoencoder sparsi è decidere quanto granulare si vuole ottenere. Pensate ancora una volta al microscopio. È possibile ingrandire qualcosa fino a un livello estremo, ma ciò potrebbe rendere impossibile l’interpretazione di ciò che si sta guardando da parte di un essere umano. Ma se si ingrandisce troppo, si rischia di limitare le cose interessanti che si possono vedere e scoprire.
La soluzione di DeepMind è stata quella di eseguire autoencoder sparsi di diverse dimensioni, variando il numero di caratteristiche che l’autoencoder deve trovare. L’obiettivo non era che i ricercatori di DeepMind analizzassero a fondo i risultati da soli. Gemma e gli autoencoder sono open-source, quindi questo progetto mirava più che altro a stimolare i ricercatori interessati a esaminare i risultati degli autoencoder sparsi e, auspicabilmente, a fare nuovi approfondimenti sulla logica interna del modello. Poiché DeepMind ha eseguito gli autoencoder su ogni livello del modello, un ricercatore ha potuto mappare la progressione dall’input all’output a un livello mai visto prima.
“Questo è davvero entusiasmante per i ricercatori sull’interpretabilità”, afferma Josh Batson, ricercatore di Anthropic. “Se si dispone di questo modello che è stato reso disponibile per lo studio, significa che ora è possibile condurre una serie di ricerche sull’interpretabilità sulla base di questi autoencoder sparsi. In questo modo si abbassa la barriera d’ingresso per chi vuole imparare questi metodi”.
Neuronpedia, una piattaforma per l’interpretabilità meccanicistica, ha collaborato con DeepMind a luglio per creare una demo di Gemma Scope con cui è possibile giocare fin da ora. Nella demo è possibile testare diversi prompt e vedere come il modello scompone il prompt e quali attivazioni si accendono. Si può anche giocare con il modello. Ad esempio, se si alza di molto la funzione sui cani e poi si pone al modello una domanda sui presidenti degli Stati Uniti, Gemma troverà il modo di inserire un’espressione casuale sui cani, oppure il modello inizierà ad abbaiare.
Un aspetto interessante degli autoencoder sparsi è che non sono supervisionati, cioè trovano le caratteristiche da soli. Questo porta a scoperte sorprendenti su come i modelli scompongono i concetti umani. La mia caratteristica preferita è la caratteristica “cringe”“, dice Joseph Bloom, responsabile scientifico di Neuronpedia. “Sembra che appaia nelle critiche negative a testi e film. È un ottimo esempio di tracciamento di cose che sono così umane a un certo livello”.
È possibile cercare i concetti su Neuronpedia e il modello evidenzierà quali caratteristiche vengono attivate su token specifici, o parole, e quanto fortemente ciascuna di esse è attivata. “Se leggete il testo e vedete ciò che è evidenziato in verde, è quando il modello pensa che il concetto di cringe sia più rilevante. L’esempio più attivo per il cringe è quello di qualcuno che fa la predica a qualcun altro”, spiega Bloom.
Alcune caratteristiche si stanno rivelando più facili da rintracciare di altre. “Una delle caratteristiche più importanti che si vorrebbe trovare per un modello è l’inganno”, dice Johnny Lin, fondatore di Neuronpedia. “Non è facilissimo da trovare: Oh, ecco la funzione che si attiva quando ci sta mentendo”. Da quello che ho visto, non è stato possibile trovare l’inganno e vietarlo”.
La ricerca di DeepMind è simile a quella che un’altra azienda di IA, Anthropic, ha fatto a maggio con Golden Gate Claude. L’azienda ha usato autoencoder sparsi per trovare le parti di Claude, il loro modello, che si accendevano quando si parlava del Golden Gate Bridge di San Francisco. Ha quindi amplificato le attivazioni relative al ponte fino al punto in cui Claude si è letteralmente identificato non come Claude, un modello di AI, ma come il Golden Gate Bridge fisico e ha risposto alle richieste come il ponte.
Anche se può sembrare stravagante, la ricerca sull’interpretabilità meccanicistica può rivelarsi incredibilmente utile. “Come strumento per capire come il modello si generalizza e a quale livello di astrazione sta lavorando, queste caratteristiche sono davvero utili”, dice Batson.
Per esempio, un team guidato da Samuel Marks, ora all’Anthropic, ha usato autoencoder sparsi per trovare caratteristiche che mostravano che un particolare modello associava certe professioni a un genere specifico. Hanno quindi disattivato queste caratteristiche di genere per ridurre le distorsioni del modello. Questo esperimento è stato fatto su un modello molto piccolo, quindi non è chiaro se il lavoro si applicherà a un modello molto più grande.
La ricerca sull’interpretabilità meccanicistica può anche darci indicazioni sul perché l’IA commette errori. Nel caso dell’affermazione che 9,11 è più grande di 9,8, i ricercatori di Transluce si sono accorti che la domanda attivava le parti di un modello di IA legate ai versetti della Bibbia e all’11 settembre. I ricercatori sono giunti alla conclusione che l’intelligenza artificiale potrebbe interpretare i numeri come date, affermando che la data successiva, l’11 settembre, è maggiore del 9/8. In molti libri, come i testi religiosi, la sezione 9.11 viene dopo la sezione 9.8, e questo potrebbe essere il motivo per cui l’IA la considera maggiore. Una volta capito perché l’intelligenza artificiale commetteva questo errore, i ricercatori hanno regolato le attivazioni dell’intelligenza artificiale sui versetti della Bibbia e sull’11 settembre, il che ha portato il modello a dare la risposta corretta quando gli è stato chiesto di nuovo se il 9,11 è maggiore del 9,8.
Esistono anche altre potenziali applicazioni. Attualmente, un prompt a livello di sistema è integrato negli LLM per gestire situazioni come quella degli utenti che chiedono come costruire una bomba. Quando si pone una domanda a ChatGPT, il modello viene prima sollecitato segretamente da OpenAI ad astenersi dal dire come costruire bombe o fare altre cose nefaste. Tuttavia, è facile per gli utenti fare il jailbreak dei modelli di IA con suggerimenti intelligenti, aggirando qualsiasi restrizione.
Se i creatori dei modelli sono in grado di vedere in quale punto dell’IA si trova la conoscenza della costruzione di una bomba, possono teoricamente disattivare quei nodi in modo permanente. In questo modo, anche la domanda più intelligente non potrebbe dare una risposta su come costruire una bomba, perché l’IA non avrebbe letteralmente alcuna informazione su come costruire una bomba nel suo sistema.
Questo tipo di granularità e di controllo preciso sono facili da immaginare, ma estremamente difficili da realizzare con lo stato attuale dell’interpretabilità meccanicistica.
“Un limite è che il sistema di pilotaggio (influenzare un modello regolandone i parametri) non funziona molto bene, per cui quando si manovra per ridurre la violenza in un modello, questo finisce per lobotomizzare completamente la sua conoscenza delle arti marziali. C’è molto da affinare nella guida”, dice Lin. La conoscenza della “fabbricazione di bombe”, ad esempio, non è un semplice interruttore on-off in un modello di intelligenza artificiale. È molto probabile che sia intessuta in più parti del modello, e disattivarla significherebbe probabilmente ostacolare la conoscenza della chimica da parte dell’IA. Qualsiasi modifica può avere dei vantaggi, ma anche dei compromessi significativi.
Detto questo, se saremo in grado di scavare più a fondo e di scrutare più chiaramente nella “mente” dell’IA, DeepMind e altri sperano che l’interpretabilità meccanicistica possa rappresentare un percorso plausibile verso l’allineamento, ovvero il processo per assicurarsi che l’IA stia effettivamente facendo ciò che vogliamo che faccia.