Skip to main content
VICHHIKA TEP/MIT TECHNOLOGY REVIEW | ADOBE STOCK

Nuove tecniche stanno consentendo ai ricercatori di dare uno sguardo al funzionamento interno dei modelli di IA.

CHI

Anthropic, Google DeepMind, Neuronpedia, OpenAI

QUANDO

Adesso


Centinaia di milioni di persone utilizzano ormai ogni giorno i chatbot. Eppure i grandi modelli linguistici che li alimentano sono così complessi che nessuno capisce veramente cosa siano, come funzionino o cosa possano e non possano fare esattamente, nemmeno chi li ha creati. Strano, vero?

È anche un problema. Senza un’idea chiara di cosa succede sotto il cofano, è difficile comprendere i limiti della tecnologia, capire esattamente perché i modelli hanno allucinazioni o impostare dei limiti per tenerli sotto controllo.

Ma l’anno scorso abbiamo capito meglio di quanto mai come funzionano gli LLM, poiché i ricercatori delle principali aziende di IA hanno iniziato a sviluppare nuovi modi per sondare il funzionamento interno di questi modelli e hanno iniziato a mettere insieme i pezzi del puzzle.

Un approccio, noto come interpretabilità meccanicistica, mira a mappare le caratteristiche chiave e i percorsi tra di esse in un intero modello. Nel 2024, l’azienda di IA Anthropic ha annunciato di aver costruito una sorta di microscopio che permette ai ricercatori di scrutare all’interno del suo grande modello linguistico Claude e identificare le caratteristiche che corrispondono a concetti riconoscibili, come Michael Jordan e il Golden Gate Bridge.

Nel 2025 Anthropic ha portato questa ricerca a un altro livello, utilizzando il suo microscopio per rivelare intere sequenze di caratteristiche e tracciare il percorso che un modello compie dal prompt alla risposta. I team di OpenAI e Google DeepMind hanno utilizzato tecniche simili per cercare di spiegare comportamenti inaspettati, come il motivo per cui i loro modelli a volte sembrano cercare di ingannare le persone.

Un altro nuovo approccio, noto come monitoraggio della catena di pensiero, consente ai ricercatori di ascoltare il monologo interiore che i cosiddetti modelli di ragionamento producono mentre svolgono i compiti passo dopo passo. OpenAI ha utilizzato questa tecnica per scoprire uno dei suoi modelli di ragionamento che barava nei test di codifica.

Il campo è diviso su quanto ci si possa spingere con queste tecniche. Alcuni pensano che gli LLM siano semplicemente troppo complicati per poter essere compresi appieno. Ma insieme, questi nuovi strumenti potrebbero aiutare a sondarne le profondità e rivelare di più su ciò che fa funzionare i nostri strani nuovi giocattoli.

ECCO LA LISTA COMPLETA DELLE 10 BREAKTHROUGH TECHNOLOGIES 2026