Skip to main content
Sarah Rogers/MITTR | Photos Getty

Molti dei benchmark più diffusi per i modelli di IA sono obsoleti o mal progettati.

Ogni volta che viene rilasciato un nuovo modello di intelligenza artificiale, di solito si parla di prestazioni eccellenti rispetto a una serie di benchmark. Il GPT-4o di OpenAI, per esempio, è stato lanciato a maggio con una compilazione di risultati che mostravano le sue prestazioni superiori a quelle di ogni altro modello di IA in diversi test.

Il problema è che questi benchmark sono mal progettati, i risultati sono difficili da replicare e i parametri utilizzati sono spesso arbitrari, secondo una nuova ricerca. Questo è importante perché i punteggi ottenuti dai modelli di IA rispetto a questi parametri determineranno il livello di controllo e di regolamentazione che riceveranno.

“Sembra di essere nel selvaggio West, perché non disponiamo di buoni standard di valutazione”, afferma Anka Reuel, autrice del documento, dottoranda in informatica all’Università di Stanford e membro del suo Center for AI Safety.

Un benchmark è essenzialmente un test che un’intelligenza artificiale deve affrontare. Può avere un formato a scelta multipla, come il più famoso, il Massive Multitask Language Understanding benchmark, noto come MMLU, oppure può essere una valutazione della capacità dell’IA di svolgere un compito specifico o della qualità delle sue risposte testuali a una serie di domande.

Le aziende produttrici di IA citano spesso i benchmark come prova del successo di un nuovo modello. “Gli sviluppatori di questi modelli tendono a ottimizzare per i benchmark specifici”, afferma Anna Ivanova, docente di psicologia presso il Georgia Institute of Technology e responsabile del laboratorio Language, Intelligence, and Thought (LIT), che non ha partecipato alla ricerca di Stanford.

Questi benchmark fanno già parte dei piani di regolamentazione dell’IA di alcuni governi. Ad esempio, la legge europea sull’IA, che entrerà in vigore nell’agosto 2025, fa riferimento ai benchmark come strumento per determinare se un modello dimostra o meno un “rischio sistemico”; in tal caso, sarà soggetto a livelli più elevati di controllo e regolamentazione. L’Istituto per la sicurezza dell’intelligenza artificiale del Regno Unito fa riferimento ai benchmark in Inspect, che è il suo quadro di riferimento per la valutazione della sicurezza dei modelli linguistici di grandi dimensioni.

Ma al momento potrebbero non essere abbastanza buoni da essere utilizzati in questo modo. “C’è un potenziale falso senso di sicurezza che stiamo creando con i benchmark se non sono ben progettati, soprattutto per i casi di utilizzo ad alto rischio”, dice Reuel. “Può sembrare che il modello sia sicuro, ma non lo è”.

Data la crescente importanza dei benchmark, Reuel e i suoi colleghi hanno voluto esaminare gli esempi più diffusi per capire cosa ne fa uno buono e se quelli che usiamo sono abbastanza robusti. I ricercatori hanno innanzitutto cercato di verificare i risultati dei benchmark presentati dagli sviluppatori, ma spesso non sono riusciti a riprodurli. Per testare un benchmark, in genere servono istruzioni o codice per eseguirlo su un modello. Molti creatori di benchmark non hanno reso pubblico il codice per eseguirli. In altri casi, il codice era obsoleto.

I creatori di benchmark spesso non rendono pubbliche nemmeno le domande e le risposte del loro set di dati. Se lo facessero, le aziende potrebbero addestrare il loro modello sul benchmark; sarebbe come permettere a uno studente di vedere le domande e le risposte di un test prima di sostenerlo. Ma questo li rende difficili da valutare.

Un altro problema è che i benchmark sono spesso “saturi”, il che significa che tutti i problemi sono stati praticamente risolti. Ad esempio, supponiamo che ci sia un test con semplici problemi matematici. La prima generazione di un modello di intelligenza artificiale ottiene un 20% nel test, fallendo. La seconda generazione del modello ottiene il 90% e la terza il 93%. Un osservatore esterno potrebbe considerare questi risultati come un rallentamento del progresso dell’IA, ma un’altra interpretazione potrebbe essere che il benchmark è stato risolto e non è più una misura così importante del progresso. Non riesce a cogliere la differenza di capacità tra la seconda e la terza generazione di un modello.

Uno degli obiettivi della ricerca è stato quello di definire un elenco di criteri che rendono un benchmark valido. “È sicuramente un problema importante discutere della qualità dei benchmark, di cosa vogliamo e di cosa abbiamo bisogno”, afferma Ivanova. “Il problema è che non esiste uno standard valido per definire i benchmark. Questo documento è un tentativo di fornire una serie di criteri di valutazione. È molto utile”.

Il documento è stato accompagnato dal lancio di un sito web, BetterBench, che classifica i benchmark di intelligenza artificiale più popolari. I fattori di valutazione includono la consultazione o meno di esperti per la progettazione, la definizione della capacità testata e altri elementi di base, come ad esempio l’esistenza di un canale di feedback per il benchmark o la sua revisione paritaria.

Il benchmark MMLU ha avuto le valutazioni più basse. “Non sono d’accordo con queste classifiche. In effetti, sono un autore di alcuni dei documenti classificati più in alto e direi che i benchmark classificati più in basso sono migliori di loro”, afferma Dan Hendrycks, direttore del CAIS, il Centro per la sicurezza dell’intelligenza artificiale, e uno dei creatori del benchmark MMLU.  Detto questo, Hendrycks è ancora convinto che il modo migliore per far progredire il settore sia costruire benchmark migliori.

Alcuni pensano che i criteri non siano all’altezza del quadro generale. “Il documento aggiunge qualcosa di prezioso. I criteri di implementazione e di documentazione – tutto questo è importante. Rende i benchmark migliori”, afferma Marius Hobbhahn, CEO di Apollo Research, un’organizzazione di ricerca specializzata nella valutazione dell’IA. “Ma per me la domanda più importante è: si misura la cosa giusta? Si potrebbero spuntare tutte queste caselle, ma si potrebbe comunque avere un pessimo benchmark perché non misura la cosa giusta”.

In sostanza, anche se un benchmark è stato progettato in modo perfetto, un benchmark che verifica la capacità del modello di fornire un’analisi convincente dei sonetti di Shakespeare potrebbe essere inutile se qualcuno è davvero preoccupato delle capacità di hacking dell’IA.

“Vedrete un parametro di riferimento che dovrebbe misurare il ragionamento morale. Ma il significato non è necessariamente ben definito. Le persone esperte in quel campo vengono incorporate nel processo? Spesso non è così”, afferma Amelia Hardy, altra autrice del lavoro e ricercatrice di intelligenza artificiale presso la Stanford University.

Ci sono organizzazioni che cercano attivamente di migliorare la situazione. Ad esempio, un nuovo benchmark di Epoch AI, un’organizzazione di ricerca, è stato progettato con il contributo di 60 matematici e verificato da due vincitori della Medaglia Fields, il premio più prestigioso della matematica. La partecipazione di questi esperti soddisfa uno dei criteri di BetterBench. Gli attuali modelli più avanzati sono in grado di rispondere a meno del 2% delle domande del benchmark, il che significa che c’è ancora molta strada da fare prima che il benchmark sia saturo.

“Abbiamo cercato di rappresentare l’intera ampiezza e profondità della ricerca matematica moderna”, afferma Tamay Besiroglu, direttore associato di Epoch AI. Nonostante la difficoltà del test, Besiroglu ipotizza che ci vorranno solo circa quattro anni prima che i modelli di IA saturino il benchmark, ottenendo un punteggio superiore all’80%.

L’organizzazione di Hendrycks, CAIS, sta collaborando con Scale AI per creare un nuovo benchmark che, a suo dire, metterà alla prova i modelli di IA contro la frontiera della conoscenza umana, battezzato Humanity’s Last Exam, HLE. “HLE è stato sviluppato da un team globale di accademici ed esperti in materia”, afferma Hendrycks. “HLE contiene domande non ambigue, non ricercabili, che richiedono una comprensione di livello dottorale per essere risolte”. Se volete contribuire con una domanda, potete farlo qui.

Sebbene ci sia molto disaccordo su cosa si debba misurare esattamente, molti ricercatori concordano sulla necessità di parametri di riferimento più solidi, soprattutto perché stabiliscono una direzione per le aziende e sono uno strumento fondamentale per i governi.

“I parametri di riferimento devono essere davvero buoni”, afferma Hardy. “Dobbiamo avere una comprensione di cosa significhi ‘veramente buono’, cosa che al momento non abbiamo”.