
Il modello sperimentale non potrà competere con i migliori e più grandi, ma potrebbe spiegarci perché si comportano in modo strano e quanto siano realmente affidabili.
OpenAI, il creatore di ChatGPT, ha realizzato un modello linguistico sperimentale di grandi dimensioni che è molto più facile da comprendere rispetto ai modelli tradizionali.
Si tratta di una novità importante, perché gli attuali LLM sono delle scatole nere: nessuno capisce appieno come funzionano. La creazione di un modello più trasparente fa luce sul funzionamento generale degli LLM, aiutando i ricercatori a capire perché i modelli hanno allucinazioni, perché vanno fuori strada e fino a che punto dovremmo fidarci di loro per compiti critici.
“Man mano che questi sistemi di IA diventano più potenti, saranno integrati sempre più in ambiti molto importanti”, ha dichiarato Leo Gao, ricercatore scientifico presso OpenAI, in un’anteprima esclusiva del nuovo lavoro concessa a MIT Technology Review. “È molto importante assicurarsi che siano sicuri”.
Si tratta ancora di una ricerca in fase iniziale. Il nuovo modello, chiamato weight-sparse transformer, è molto più piccolo e molto meno potente dei modelli di fascia alta destinati al mercato di massa come il GPT-5 dell’azienda, il Claude di Anthropic e il Gemini di Google DeepMind. Al massimo ha le stesse capacità del GPT-1, un modello sviluppato da OpenAI nel 2018, afferma Gao (anche se lui e i suoi colleghi non hanno effettuato un confronto diretto).
Ma l’obiettivo non è quello di competere con i migliori della categoria (almeno, non ancora). Piuttosto, osservando il funzionamento di questo modello sperimentale, OpenAI spera di comprendere i meccanismi nascosti all’interno delle versioni più grandi e migliori di questa tecnologia.
È una ricerca interessante, afferma Elisenda Grigsby, matematica del Boston College che studia il funzionamento degli LLM e che non ha partecipato al progetto: “Sono sicura che i metodi introdotti avranno un impatto significativo”.
Lee Sharkey, ricercatore presso la startup di IA Goodfire, è d’accordo. “Questo lavoro punta all’obiettivo giusto e sembra ben eseguito”, afferma.
Perché i modelli sono così difficili da comprendere
Il lavoro di OpenAI fa parte di un nuovo campo di ricerca molto attuale noto come interpretabilità meccanicistica, che cerca di mappare i meccanismi interni che i modelli utilizzano quando svolgono compiti diversi.
È più difficile di quanto sembri. Gli LLM sono costruiti a partire da reti neurali, costituite da nodi, chiamati neuroni, disposti in strati. Nella maggior parte delle reti, ogni neurone è collegato a tutti gli altri neuroni negli strati adiacenti. Una rete di questo tipo è nota come rete densa.
Le reti dense sono relativamente efficienti da addestrare e gestire, ma diffondono ciò che apprendono attraverso una vasta rete di connessioni. Il risultato è che concetti o funzioni semplici possono essere suddivisi tra neuroni in diverse parti di un modello. Allo stesso tempo, neuroni specifici possono anche finire per rappresentare in modo sovrapposto ( ) più caratteristiche diverse, un fenomeno noto come sovrapposizione (un termine preso in prestito dalla fisica quantistica). Il risultato è che non è possibile mettere in relazione parti specifiche di un modello con concetti specifici.
“Le reti neurali sono grandi, complicate, intricate e molto difficili da comprendere”, afferma Dan Mossing, che guida il team di interpretabilità meccanicistica presso OpenAI. “Ci siamo detti: ‘Ok, e se provassimo a cambiare questa situazione?'”
Invece di costruire un modello utilizzando una rete densa, OpenAI ha iniziato con un tipo di rete neurale nota come trasformatore a peso sparso, in cui ogni neurone è collegato solo ad alcuni altri neuroni. Ciò ha costretto il modello a rappresentare le caratteristiche in cluster localizzati piuttosto che distribuirle.
Il loro modello è molto più lento di qualsiasi LLM presente sul mercato. Tuttavia, è più facile mettere in relazione i suoi neuroni o gruppi di neuroni con concetti e funzioni specifici. “C’è una differenza davvero drastica nell’interpretabilità del modello”, afferma Gao.
Gao e i suoi colleghi hanno testato il nuovo modello con compiti molto semplici. Ad esempio, gli hanno chiesto di completare un blocco di testo che inizia con virgolette aggiungendo i segni corrispondenti alla fine.
Si tratta di una richiesta banale per un LLM. Il punto è che capire come un modello esegua anche un compito semplice come questo comporta districare un complicato groviglio di neuroni e connessioni, afferma Gao. Ma con il nuovo modello, sono stati in grado di seguire i passaggi esatti compiuti dal modello.
“Abbiamo effettivamente trovato un circuito che è esattamente l’algoritmo che si penserebbe di implementare manualmente, ma è completamente appreso dal modello”, afferma. “Penso che sia davvero interessante ed entusiasmante”.
Quali saranno i prossimi passi della ricerca? Grigsby non è convinto che la tecnica possa essere estesa a modelli più grandi che devono gestire una varietà di compiti più difficili.
Gao e Mossing riconoscono che questo è un grosso limite del modello che hanno costruito finora e concordano sul fatto che questo approccio non porterà mai a modelli che eguaglino le prestazioni di prodotti all’avanguardia come GPT-5. Eppure OpenAI pensa di poter migliorare la tecnica abbastanza da costruire un modello trasparente alla pari di GPT-3, l’innovativo LLM del 2021 dell’azienda.
“Forse entro pochi anni potremmo avere un GPT-3 completamente interpretabile, in modo da poter accedere a ogni sua singola parte e capire come funziona ogni singola cosa”, afferma Gao. “Se avessimo un sistema del genere, impareremmo tantissimo”.




