Skip to main content
Photo Illustration by Sarah Rogers/MITTR | Photos Getty

L’era del “prima l’entusiasmo, poi il ragionamento”.

Demis Hassabis, CEO di Google DeepMind, ha riassunto il tutto in due parole: “È imbarazzante”.

Hassabis stava rispondendo su X a un post esageratamente entusiasta di Sébastien Bubeck, ricercatore presso l’azienda rivale OpenAI, che annunciava che due matematici avevano utilizzato l’ultimo modello linguistico di grandi dimensioni di OpenAI, GPT-5, per trovare soluzioni a 10 problemi irrisolti in matematica. “L’accelerazione della scienza tramite l’IA è ufficialmente iniziata”, ha esultato Bubeck.

Indossate per un attimo il vostro cappello da matematici e diamo un’occhiata a cosa riguardava questa polemica di metà ottobre. È un esempio perfetto di ciò che non va nell’IA in questo momento.

Bubeck era entusiasta del fatto che GPT-5 sembrasse aver risolto in qualche modo una serie di enigmi noti come problemi di Erdős.

Paul Erdős, uno dei matematici più prolifici del XX secolo, ha lasciato centinaia di enigmi quando è morto. Per aiutare a tenere traccia di quelli che sono stati risolti, Thomas Bloom, un matematico dell’Università di Manchester, nel Regno Unito, ha creato il sito erdosproblems.com, che elenca più di 1.100 problemi e segnala che circa 430 di essi hanno una soluzione.

Quando Bubeck ha celebrato la svolta di GPT-5, Bloom lo ha subito smentito. “Si tratta di una drammatica mistificazione”, ha scritto su X. Bloom ha spiegato che un problema non è necessariamente irrisolto se questo sito web non elenca una soluzione. Ciò significa semplicemente che Bloom non ne era a conoscenza. Esistono milioni di articoli di matematica e nessuno li ha letti tutti. Ma GPT-5 probabilmente sì.

Si è scoperto che invece di trovare nuove soluzioni a 10 problemi irrisolti, GPT-5 aveva setacciato Internet alla ricerca di 10 soluzioni esistenti che Bloom non aveva mai visto prima. Ops!

Ci sono due conclusioni da trarre. La prima è che non si dovrebbero fare affermazioni affrettate sui grandi progressi sui social media: meno reazioni istintive e più verifiche approfondite.

La seconda è che anche la capacità di GPT-5 di trovare riferimenti a lavori precedenti che Bloom non conosceva è sorprendente. L’hype ha oscurato qualcosa che di per sé sarebbe stato piuttosto interessante.

I matematici sono molto interessati all’uso degli LLM per setacciare un numero enorme di risultati esistenti, mi ha detto François Charton, ricercatore scientifico che studia l’applicazione degli LLM alla matematica presso la startup di IA Axiom Math, quando gli ho parlato di questo errore di Erdős.

Ma la ricerca bibliografica è noiosa rispetto alla vera scoperta, soprattutto per i ferventi sostenitori dell’IA sui social media. L’errore di Bubeck non è l’unico esempio.

Ad agosto, una coppia di matematici ha dimostrato che nessun LLM era in grado di risolvere un rompicapo matematico noto come il 554° problema di Yu Tsumura. Due mesi dopo, i social media sono esplosi con prove che GPT-5 ora era in grado di farlo. “Il momento Lee Sedol sta arrivando per molti”, ha commentato un osservatore, riferendosi al maestro di Go che ha perso contro l’IA AlphaGo di DeepMind nel 2016.

Ma Charton ha sottolineato che risolvere il 554° problema di Yu Tsumura non è una grande impresa per i matematici. “È una domanda che si darebbe a uno studente universitario”, ha detto. “C’è questa tendenza a esagerare tutto”.

Nel frattempo, stanno arrivando valutazioni più sobrie su ciò che gli LLM possono o non possono fare bene. Mentre i matematici discutevano su Internet riguardo al GPT-5, sono stati pubblicati due nuovi studi che hanno esaminato in profondità l’uso degli LLM in medicina e diritto (due campi in cui i creatori di modelli hanno affermato che la loro tecnologia eccelle).

I ricercatori hanno scoperto che gli LLM sono in grado di formulare alcune diagnosi mediche, ma non sono affidabili nel raccomandare trattamenti. Per quanto riguarda il diritto, i ricercatori hanno scoperto che gli LLM spesso forniscono consigli incoerenti e scorretti. “Le prove raccolte finora non sono affatto sufficienti a soddisfare l’onere della prova”, hanno concluso gli autori.

Ma questo non è il tipo di messaggio che viene accolto bene su X. “C’è grande entusiasmo perché tutti comunicano freneticamente: nessuno vuole rimanere indietro”, ha affermato Charton. X è il luogo in cui vengono pubblicate per prime molte notizie sull’IA, dove vengono annunciati i nuovi risultati e dove personaggi chiave come Sam Altman, Yann LeCun e Gary Marcus si scontrano pubblicamente. È difficile stare al passo, e ancora più difficile distogliere lo sguardo.

Il post di Bubeck è stato imbarazzante solo perché il suo errore è stato scoperto. Non tutti gli errori lo sono. A meno che qualcosa non cambi, ricercatori, investitori e sostenitori non specifici continueranno a sostenersi a vicenda. “Alcuni di loro sono scienziati, molti no, ma sono tutti nerd”, mi ha detto Charton. “Le affermazioni eclatanti funzionano molto bene su queste reti”.

*****

C’è un finale! Ho scritto tutto quello che avete appena letto sopra per la rubrica Algorithm del numero di gennaio/febbraio 2026 della rivista MIT Technology Review (in uscita molto presto). Due giorni dopo la pubblicazione, Axiom mi ha comunicato che il suo modello matematico, AxiomProver, aveva risolto due problemi aperti di Erdős (il n. 124 e il n. 481, per gli appassionati di matematica). È un risultato impressionante per una piccola startup fondata solo pochi mesi fa. Sì, l’IA si muove velocemente!

Ma non è tutto. Cinque giorni dopo, l’azienda ha annunciato che AxiomProver aveva risolto nove dei 12 problemi del concorso Putnam di quest’anno, una sfida matematica di livello universitario che alcuni considerano più difficile della più nota Olimpiade Internazionale di Matematica (che gli LLM di Google DeepMind e OpenAI hanno superato a pieni voti pochi mesi fa).

Il risultato del Putnam è stato lodato su X da grandi nomi del settore, tra cui Jeff Dean, capo scienziato di Google DeepMind, e Thomas Wolf, cofondatore dell’azienda di IA Hugging Face. Ancora una volta, nelle risposte si sono svolti i soliti dibattiti. Alcuni ricercatori hanno sottolineato che, mentre le Olimpiadi Internazionali di Matematica richiedono una risoluzione dei problemi più creativa, la competizione Putnam mette alla prova le conoscenze matematiche, il che la rende notoriamente difficile per gli studenti universitari, ma più facile, in teoria, per gli LLM che hanno assimilato Internet.

Come dovremmo giudicare i risultati ottenuti da Axiom? Non sui social media, almeno. E le vittorie accattivanti nelle competizioni sono solo un punto di partenza. Per determinare quanto siano bravi gli LLM in matematica sarà necessario approfondire esattamente ciò che questi modelli fanno quando risolvono problemi matematici difficili (leggi: difficili per gli esseri umani).