Skip to main content
MIT Technology Review | Getty

Per correggere il modo in cui testiamo e misuriamo i modelli, l’intelligenza artificiale sta imparando trucchi dalle scienze sociali.

Non è facile essere uno dei punti di riferimento preferiti della Silicon Valley.

SWE-Bench (pronunciato “swee bench”) è stato lanciato nel novembre 2024 per valutare l’abilità di codifica di un modello di intelligenza artificiale, utilizzando più di 2.000 problemi di programmazione del mondo reale estratti dai repository GitHub pubblici di 12 diversi progetti basati su Python.

Nei mesi successivi, è diventato rapidamente uno dei test più popolari nel campo dell’IA. Il punteggio di SWE-Bench è diventato una colonna portante dei principali modelli rilasciati da OpenAI, Anthropic e Google e, al di fuori dei modelli di base, i perfezionatori delle aziende di IA sono in costante competizione per vedere chi riesce a superare il gruppo. In cima alla classifica c’è un’ammucchiata tra tre diverse messe a punto del modello Claude Sonnet di Anthropic e l’agente sviluppatore Q di Amazon. Auto Code Rover, una delle modifiche di Claude, ha conquistato il secondo posto a novembre ed è stata acquisita solo tre mesi dopo.

Nonostante il fervore, non si tratta esattamente di una valutazione veritiera di quale modello sia “migliore”. Con l’affermarsi del benchmark, “si comincia a vedere che la gente vuole davvero il primo posto”, dice John Yang, ricercatore del team che ha sviluppato SWE-Bench all’Università di Princeton. Di conseguenza, i partecipanti hanno iniziato a giocare con il sistema, spingendo molti altri a chiedersi se esista un modo migliore per misurare i risultati dell’IA.

Gli sviluppatori di questi agenti di codifica non stanno necessariamente imbrogliando in modo così diretto, ma stanno creando approcci che sono troppo perfettamente adattati alle specificità del benchmark. Il set di test iniziale di SWE-Bench era limitato ai programmi scritti in Python, il che significa che gli sviluppatori potevano ottenere un vantaggio addestrando i loro modelli esclusivamente sul codice Python. Ben presto, Yang ha notato che i modelli con punteggi elevati fallivano completamente quando venivano testati su linguaggi di programmazione diversi, rivelando un approccio al test che descrive come “dorato”.

“A prima vista sembra bello e brillante, ma poi si prova a farlo funzionare con un linguaggio diverso e l’intera cosa va in pezzi”, dice Yang. “A quel punto non si sta progettando un agente di ingegneria del software. Si sta progettando un agente SWE-Bench, che è molto meno interessante”.

Il problema di SWE-Bench è un sintomo di un problema più ampio e complicato nella valutazione dell’intelligenza artificiale, che sta suscitando sempre più accesi dibattiti: i benchmark utilizzati dall’industria per guidare lo sviluppo si stanno allontanando sempre di più dalla valutazione delle capacità reali, mettendo in discussione il loro valore di base. A peggiorare la situazione, alcuni benchmark, in particolare FrontierMath e Chatbot Arena, sono stati recentemente messi sotto accusa per una presunta mancanza di trasparenza. Tuttavia, i benchmark svolgono ancora un ruolo centrale nello sviluppo dei modelli, anche se pochi esperti sono disposti a prendere i loro risultati al valore nominale. Andrej Karpathy, cofondatore di OpenAI, ha recentemente descritto la situazione come una “crisi di valutazione”: l’industria ha meno metodi affidabili per misurare le capacità e non ha un percorso chiaro per ottenerne di migliori.

“Storicamente, i benchmark sono stati il modo in cui abbiamo valutato i sistemi di IA”, afferma Vanessa Parli, direttore della ricerca presso l’Institute for Human-Centered AI dell’Università di Stanford. “È questo il modo in cui vogliamo valutare i sistemi in futuro? E se non lo è, qual è il modo?”.

Un gruppo crescente di accademici e di ricercatori di IA sostiene che la risposta sia quella di ridurre le dimensioni, sostituendo le grandi ambizioni con un approccio ispirato alle scienze sociali. In particolare, vogliono concentrarsi maggiormente sui test di validità, che per gli scienziati sociali quantitativi si riferiscono a quanto un determinato questionario misuri ciò che pretende di misurare e, più fondamentalmente, se ciò che misura abbia una definizione coerente. Questo potrebbe causare problemi per i benchmark che valutano concetti vagamente definiti come “ragionamento” o “conoscenza scientifica” – e per gli sviluppatori che mirano a raggiungere il tanto sbandierato obiettivo dell’intelligenza artificiale generale – ma metterebbe l’industria su un terreno più solido quando cerca di dimostrare il valore dei singoli modelli.

“Prendere sul serio la validità significa chiedere a chi lavora nel mondo accademico, nell’industria o altrove di dimostrare che il proprio sistema fa quello che dice di fare”, afferma Abigail Jacobs, docente dell’Università del Michigan che è una figura centrale nella nuova spinta alla validità. “Penso che sia un punto debole nel mondo dell’IA se vogliono tirarsi indietro dal dimostrare che sono in grado di sostenere le loro affermazioni”.

I limiti dei test tradizionali

Se le aziende di IA hanno tardato a rispondere al crescente fallimento dei benchmark, è in parte dovuto al fatto che l’approccio del test-scoring è stato così efficace per così tanto tempo.

Uno dei primi grandi successi dell’IA contemporanea è stata la sfida ImageNet, una sorta di antecedente dei benchmark contemporanei. Rilasciato nel 2010 come sfida aperta ai ricercatori, il database conteneva più di 3 milioni di immagini che i sistemi di IA dovevano classificare in 1.000 classi diverse.

In particolare, il test era completamente agnostico rispetto ai metodi, e qualsiasi algoritmo di successo ha guadagnato rapidamente credibilità indipendentemente dal modo in cui funzionava. Quando nel 2012 un algoritmo chiamato AlexNet ha sfondato, con una forma allora non convenzionale di addestramento su GPU, è diventato uno dei risultati fondamentali dell’IA moderna. Pochi avrebbero immaginato in anticipo che le reti neurali convoluzionali di AlexNet sarebbero state il segreto per sbloccare il riconoscimento delle immagini, ma dopo aver ottenuto un buon risultato, nessuno ha osato metterlo in dubbio. (Uno degli sviluppatori di AlexNet, Ilya Sutskever, avrebbe poi fondato OpenAI).

Gran parte di ciò che ha reso questa sfida così efficace è stata la scarsa differenza pratica tra la sfida di classificazione degli oggetti di ImageNet e il processo reale di chiedere a un computer di riconoscere un’immagine. Anche se c’erano controversie sui metodi, nessuno dubitava che il modello con il punteggio più alto avrebbe avuto un vantaggio quando sarebbe stato impiegato in un sistema di riconoscimento delle immagini.

Ma da allora, nei 12 anni successivi, i ricercatori di IA hanno applicato lo stesso approccio indipendente dal metodo a compiti sempre più generali. SWE-Bench è comunemente usato come proxy per una più ampia capacità di codifica, mentre altri benchmark in stile esame spesso rappresentano la capacità di ragionamento. Questo ampio campo di applicazione rende difficile essere rigorosi su ciò che uno specifico benchmark misura, il che, a sua volta, rende difficile usare i risultati in modo responsabile.

Dove le cose si rompono

Anka Reuel, una dottoranda che si è concentrata sul problema dei benchmark nell’ambito della sua ricerca a Stanford, si è convinta che il problema della valutazione sia il risultato di questa spinta verso la generalità. “Siamo passati da modelli specifici per un compito a modelli generici”, dice Reuel. “Non si tratta più di un singolo compito, ma di un intero gruppo di compiti, quindi la valutazione diventa più difficile”.

Come Jacobs dell’Università del Michigan, Reuel ritiene che “il problema principale dei benchmark sia la validità, ancor più dell’attuazione pratica”: “È qui che molte cose si rompono”. Per un compito complicato come la codifica, ad esempio, è quasi impossibile incorporare ogni possibile scenario nel proprio set di problemi. Di conseguenza, è difficile valutare se un modello ottiene un punteggio migliore perché è più abile nella codifica o perché ha manipolato in modo più efficace il set di problemi. E con la pressione esercitata sugli sviluppatori per ottenere punteggi record, è difficile resistere alle scorciatoie.

Per gli sviluppatori, la speranza è che il successo su molti benchmark specifici porti a un modello generalmente capace. Ma le tecniche dell’intelligenza artificiale agenziale fanno sì che un singolo sistema di intelligenza artificiale possa comprendere una serie complessa di modelli diversi, rendendo difficile valutare se il miglioramento su un compito specifico porterà a una generalizzazione. “Ci sono molte più manopole che si possono girare”, dice Sayash Kapoor, scienziato informatico di Princeton e critico di spicco delle pratiche approssimative nel settore dell’IA. “Quando si parla di agenti, si è rinunciato alle migliori pratiche di valutazione”.

In un articolo dello scorso luglio, Kapoor ha evidenziato problemi specifici nel modo in cui i modelli di IA si approcciavano al benchmark WebArena, progettato dai ricercatori della Carnegie Mellon University nel 2024 per testare la capacità di un agente di IA di attraversare il web. Il benchmark consiste in più di 800 compiti da eseguire su una serie di siti web clonati che imitano Reddit, Wikipedia e altri. Kapoor e il suo team hanno identificato un apparente hack nel modello vincente, chiamato STeP. STeP includeva istruzioni specifiche su come Reddit struttura gli URL, consentendo ai modelli STeP di saltare direttamente alla pagina del profilo di un determinato utente (un elemento frequente dei compiti di WebArena).

Questa scorciatoia non era esattamente un imbroglio, ma Kapoor la vede come “una seria rappresentazione errata di come l’agente avrebbe lavorato bene se avesse visto i compiti in WebArena per la prima volta”. Poiché la tecnica ha avuto successo, tuttavia, una politica simile è stata adottata dall’Operatore di agenti web di OpenAI. (“La nostra impostazione di valutazione è progettata per valutare quanto bene un agente possa risolvere i compiti, date alcune istruzioni sulle strutture dei siti web e sull’esecuzione dei compiti”, ha detto un rappresentante di OpenAI quando è stato contattato per un commento. “Questo approccio è coerente con il modo in cui altri hanno utilizzato e riportato i risultati di WebArena”. STeP non ha risposto a una richiesta di commento).

Per evidenziare ulteriormente il problema dei benchmark di IA, alla fine del mese scorso Kapoor e un team di ricercatori hanno scritto un documento che ha rivelato problemi significativi in Chatbot Arena, il popolare sistema di valutazione in crowdsourcing. Secondo il documento, la classifica veniva manipolata; molti modelli di fondazione di alto livello stavano conducendo test privati non rivelati e rilasciavano i loro punteggi in modo selettivo.

Oggi anche ImageNet, la madre di tutti i benchmark, ha iniziato a essere vittima di problemi di validità. Uno studio del 2023 condotto da ricercatori dell’Università di Washington e di Google Research ha rilevato che, quando gli algoritmi vincitori di ImageNet sono stati messi a confronto con sei set di dati del mondo reale, il miglioramento dell’architettura “ha comportato progressi minimi o nulli”, suggerendo che la validità esterna del test ha raggiunto il suo limite.

Diventare più piccoli

Per coloro che ritengono che il problema principale sia la validità, la soluzione migliore consiste nel ricollegare i benchmark a compiti specifici. Come dice Reuel, gli sviluppatori di IA “devono ricorrere a questi benchmark di alto livello che sono quasi privi di significato per i consumatori a valle, perché gli sviluppatori di benchmark non possono più anticipare il compito a valle”. E se ci fosse un modo per aiutare i consumatori a valle a identificare questa lacuna?

Nel novembre 2024, Reuel ha lanciato un progetto di classificazione pubblica chiamato BetterBench, che valuta i benchmark in base a decine di criteri diversi, come ad esempio se il codice è stato documentato pubblicamente. Ma la validità è un tema centrale, con criteri particolari che sfidano i progettisti a spiegare quale capacità il loro benchmark sta testando e come si riferisce ai compiti che compongono il benchmark.

“È necessario avere una ripartizione strutturale delle capacità”, afferma Reuel. “Quali sono le competenze effettive che vi interessano e come le rendete operative in qualcosa che possiamo misurare?”.

I risultati sono sorprendenti. Uno dei benchmark con i punteggi più alti è anche il più vecchio: l’Arcade Learning Environment (ALE), creato nel 2013 per testare la capacità dei modelli di imparare a giocare con una libreria di giochi Atari 2600. Uno dei punteggi più bassi è il benchmark Massive Multitask Language Understanding (MMLU), un test ampiamente utilizzato per le competenze linguistiche generali; per gli standard di BetterBench, il collegamento tra le domande e l’abilità sottostante era troppo poco definito.

BetterBench non ha inciso molto sulla reputazione di benchmark specifici, almeno non ancora; MMLU è ancora ampiamente utilizzato e ALE è ancora marginale. Ma il progetto è riuscito a far entrare la validità nella conversazione più ampia su come correggere i benchmark. Ad aprile, Reuel è entrata a far parte di un nuovo gruppo di ricerca ospitato da Hugging Face, dall’Università di Edimburgo e da EleutherAI, dove svilupperà le sue idee sulla validità e sulla valutazione dei modelli di intelligenza artificiale con altre figure del settore. (L’annuncio ufficiale è previsto per la fine del mese).

Irene Solaiman, responsabile delle politiche globali di Hugging Face, afferma che il gruppo si concentrerà sulla creazione di benchmark validi che vadano oltre la semplice misurazione delle capacità. “C’è tanta voglia di un buon parametro di riferimento che sia già pronto”, dice Solaiman. “Molte valutazioni stanno cercando di fare troppo”.

Il resto del settore sembra essere sempre più d’accordo. In un documento di marzo, ricercatori di Google, Microsoft, Anthropic e altri hanno delineato un nuovo quadro di riferimento per migliorare le valutazioni, con la validità come primo passo.

“La scienza della valutazione dell’IA deve”, sostengono i ricercatori, “andare oltre le affermazioni a grana grossa di ‘intelligenza generale’ verso misure di progresso più specifiche e rilevanti per il mondo reale”.

Misurare le cose “morbide”

Per contribuire a questo cambiamento, alcuni ricercatori stanno guardando agli strumenti delle scienze sociali. In un documento di febbraio si sostiene che “la valutazione dei sistemi GenAI è una sfida di misurazione delle scienze sociali”, spiegando in particolare come i sistemi di validità utilizzati nelle misurazioni sociali possano essere applicati al benchmarking dell’IA.

Gli autori, in gran parte dipendenti del settore ricerca di Microsoft ma affiancati da accademici di Stanford e dell’Università del Michigan, fanno riferimento agli standard utilizzati dagli scienziati sociali per misurare concetti controversi come l’ideologia, la democrazia e la parzialità dei media. Applicate ai benchmark dell’intelligenza artificiale, queste stesse procedure potrebbero offrire un modo per misurare concetti come “ragionamento” e “competenza matematica” senza scivolare in vaghe generalizzazioni.

Nella letteratura delle scienze sociali, è particolarmente importante che le metriche inizino con una definizione rigorosa del concetto misurato dal test. Per esempio, se il test deve misurare la democraticità di una società, deve innanzitutto stabilire una definizione di “società democratica” e poi stabilire le domande pertinenti a tale definizione.

Per applicare questo metodo a un benchmark come SWE-Bench, i progettisti dovrebbero mettere da parte il classico approccio di apprendimento automatico, che consiste nel raccogliere problemi di programmazione da GitHub e creare uno schema per convalidare le risposte come vere o false. Invece, dovrebbero innanzitutto definire l’obiettivo del benchmark (“capacità di risolvere i problemi segnalati nel software”, per esempio), suddividerlo in sottocompetenze (diversi tipi di problemi o di programmi che il modello di intelligenza artificiale può elaborare con successo) e infine assemblare domande che coprano accuratamente le diverse sottocompetenze.

Si tratta di un cambiamento profondo rispetto all’approccio tipico dei ricercatori di IA al benchmarking, ma per ricercatori come Jacobs, coautrice del documento di febbraio, è proprio questo il punto. “C’è una discrepanza tra ciò che sta accadendo nell’industria tecnologica e questi strumenti delle scienze sociali”, dice Jacobs. “Abbiamo decenni e decenni di riflessioni su come misurare queste cose insignificanti sugli esseri umani”.

Anche se l’idea ha avuto un impatto reale nel mondo della ricerca, ha tardato a influenzare il modo in cui le aziende di IA utilizzano effettivamente i benchmark.

Negli ultimi due mesi sono stati rilasciati nuovi modelli da OpenAI, Anthropic, Google e Meta, e tutti si basano pesantemente su benchmark di conoscenza a scelta multipla come MMLU, l’esatto approccio che i ricercatori di validità stanno cercando di superare. Dopotutto, la maggior parte dei rilasci dei modelli riguarda ancora la dimostrazione di aumenti dell’intelligenza generale, e si continuano a usare ampi benchmark per sostenere queste affermazioni.

Per alcuni osservatori, questo è sufficiente. Secondo il professore di Wharton Ethan Mollick, i benchmark sono “cattive misure delle cose, ma sono anche ciò che abbiamo”. E aggiunge: “Allo stesso tempo, i modelli stanno migliorando. Molti peccati vengono perdonati dai rapidi progressi”.

Per il momento, l’attenzione che da tempo il settore rivolge all’intelligenza artificiale generale sembra escludere un approccio più mirato basato sulla validità. Finché i modelli di IA possono continuare a crescere in intelligenza generale, le applicazioni specifiche non sembrano così interessanti, anche se questo lascia i professionisti affidarsi a strumenti di cui non si fidano più completamente.

“È questa la corda che stiamo percorrendo”, afferma Solaiman di Hugging Face. “È troppo facile buttare via il sistema, ma le valutazioni sono davvero utili per capire i nostri modelli, anche con queste limitazioni”.

Russell Brandom è uno scrittore freelance che si occupa di intelligenza artificiale. Vive a Brooklyn con la moglie e due gatti.

Questo articolo è stato finanziato da una sovvenzione del Tarbell Center for AI Journalism.