
Una conversazione esclusiva con Kevin Weil, responsabile di OpenAI for Science, un nuovo team interno che vuole rendere gli scienziati più produttivi.
Nei tre anni trascorsi dal debutto esplosivo di ChatGPT, la tecnologia di OpenAI ha rivoluzionato una serie incredibile di attività quotidiane a casa, al lavoro, a scuola, ovunque le persone abbiano un browser aperto o un telefono a portata di mano, ovvero praticamente ovunque.
Ora OpenAI sta puntando esplicitamente sugli scienziati. A ottobre, l’azienda ha annunciato di aver lanciato un team completamente nuovo, chiamato OpenAI for Science, dedicato a esplorare come i suoi modelli linguistici di grandi dimensioni possano aiutare gli scienziati e a perfezionare i suoi strumenti per supportarli.
Negli ultimi due mesi sono stati pubblicati numerosi post sui social media e articoli accademici in cui matematici, fisici, biologi e altri hanno descritto come gli LLM (e in particolare il GPT-5 di OpenAI) li abbiano aiutati a fare una scoperta o li abbiano spinti verso una soluzione che altrimenti avrebbero potuto perdere. In parte, OpenAI for Science è stato creato per interagire con questa comunità.
Eppure OpenAI è anche in ritardo. Google DeepMind, l’azienda rivale dietro modelli scientifici rivoluzionari come AlphaFold e AlphaEvolve, ha da anni un team dedicato all’intelligenza artificiale per la scienza. (Quando nel 2023 ho parlato con Demis Hassabis, CEO e cofondatore di Google DeepMind, di quel team, mi ha detto: “Questo è il motivo per cui ho fondato DeepMind… In realtà, è il motivo per cui ho dedicato tutta la mia carriera all’intelligenza artificiale”).
Allora perché adesso? In che modo la spinta verso la scienza si inserisce nella missione più ampia di OpenAI? E cosa spera di ottenere esattamente l’azienda?
Ho posto queste domande a Kevin Weil, vicepresidente di OpenAI che guida il nuovo team OpenAI for Science, in un’intervista esclusiva la scorsa settimana.
La missione
Weil è un esperto di prodotti. È entrato a far parte di OpenAI un paio di anni fa come chief product officer dopo essere stato responsabile dei prodotti presso Twitter e Instagram. Ma ha iniziato come scienziato. Ha completato i due terzi del dottorato in fisica delle particelle alla Stanford University prima di abbandonare il mondo accademico per il sogno della Silicon Valley. Weil tiene a sottolineare il suo pedigree: “Pensavo che sarei stato un professore di fisica per il resto della mia vita”, dice. “Leggo ancora libri di matematica in vacanza”.
Alla domanda su come OpenAI for Science si inserisca nella gamma esistente di strumenti di produttività per impiegati o nell’app di video virali Sora, Weil recita il mantra dell’azienda: “La missione di OpenAI è cercare di costruire un’intelligenza artificiale generale e, come sapete, renderla vantaggiosa per tutta l’umanità”.
Basta immaginare l’impatto futuro che questa tecnologia potrebbe avere sulla scienza, dice: nuovi farmaci, nuovi materiali, nuovi dispositivi. “Pensate a come potrebbe aiutarci a comprendere la natura della realtà, aiutandoci a pensare in modo e attraverso problemi aperti. Forse l’impatto più grande e positivo che vedremo dall’AGI sarà proprio la sua capacità di accelerare la scienza”.
Aggiunge: “Con GPT-5, abbiamo visto che questo è diventato possibile”.
Come dice Weil, gli LLM sono ora abbastanza validi da essere utili collaboratori scientifici. Possono proporre idee, suggerire nuove direzioni da esplorare e trovare parallelismi fruttuosi tra nuovi problemi e vecchie soluzioni pubblicate in riviste oscure decenni fa o in lingue straniere.
Questo non era il caso circa un anno fa. Da quando ha annunciato il suo primo cosiddetto modello di ragionamento – un tipo di LLM in grado di scomporre i problemi in più fasi e risolverli uno per uno – nel dicembre 2024, OpenAI ha continuato a spingere i limiti di ciò che la tecnologia è in grado di fare. I modelli di ragionamento hanno reso gli LLM molto più efficaci nel risolvere problemi di matematica e logica rispetto al passato. “Se torniamo indietro di qualche anno, eravamo tutti sbalorditi dal fatto che i modelli potessero ottenere un punteggio di 800 al SAT”, afferma Weil.
Ma ben presto gli LLM hanno iniziato a eccellere nelle competizioni di matematica e a risolvere problemi di fisica di livello universitario. L’anno scorso, OpenAI e Google DeepMind hanno entrambi annunciato che i loro LLM avevano ottenuto risultati da medaglia d’oro alle Olimpiadi Internazionali di Matematica, una delle competizioni di matematica più difficili al mondo. “Questi modelli non sono più solo migliori del 90% degli studenti universitari”, afferma Weil. “Sono davvero all’avanguardia delle capacità umane”.
Si tratta di un’affermazione importante, che va presa con le dovute cautele. Tuttavia, non c’è dubbio che GPT-5, che include un modello di ragionamento, rappresenti un notevole miglioramento rispetto a GPT-4 quando si tratta di risolvere problemi complessi. Misurato rispetto a un benchmark di settore noto come GPQA, che include più di 400 domande a scelta multipla che testano le conoscenze a livello di dottorato in biologia, fisica e chimica, GPT-4 ottiene un punteggio del 39%, ben al di sotto della soglia di riferimento degli esperti umani, che è di circa il 70%. Secondo OpenAI, GPT-5.2 (l’ultimo aggiornamento del modello, rilasciato a dicembre) ottiene un punteggio del 92%.
Ipervalutato
L’entusiasmo è evidente, e forse eccessivo. A ottobre, alcuni esponenti di spicco di OpenAI, tra cui Weil, hanno vantato su X che GPT-5 aveva trovato la soluzione a diversi problemi matematici irrisolti. I matematici hanno subito fatto notare che in realtà GPT-5 sembrava aver semplicemente riportato alla luce soluzioni già esistenti in vecchi articoli di ricerca, tra cui almeno uno scritto in tedesco. Ciò era comunque utile, ma non era il risultato che OpenAI sembrava aver rivendicato. Weil e i suoi colleghi hanno cancellato i loro post.
Ora Weil è più cauto. Spesso è sufficiente trovare risposte che esistono ma che sono state dimenticate, afferma: “Noi collettivamente ci appoggiamo sulle spalle dei giganti, e se gli LLM possono in qualche modo accumulare quella conoscenza in modo da non dover perdere tempo a lottare con un problema che è già stato risolto, questa è già di per sé un’accelerazione”.
Sminuisce l’idea che gli LLM stiano per arrivare a una nuova scoperta rivoluzionaria. “Non credo che i modelli siano ancora a quel punto”, dice. “Forse ci arriveranno. Sono ottimista al riguardo”.
Ma, insiste, non è questa la missione: “La nostra missione è accelerare la scienza. E non credo che il livello richiesto per l’accelerazione della scienza sia una reinvenzione di un intero campo al livello di Einstein”.
Per Weil, la domanda è questa: “La scienza procede davvero più velocemente perché gli scienziati e i modelli possono fare molto di più, e farlo più rapidamente, rispetto agli scienziati da soli? Penso che lo stiamo già vedendo”.
A novembre, OpenAI ha pubblicato una serie di casi di studio aneddotici forniti da scienziati, sia interni che esterni all’azienda, che illustravano come avevano utilizzato GPT-5 e come questo li aveva aiutati. “La maggior parte dei casi riguardava scienziati che già utilizzavano GPT-5 direttamente nella loro ricerca e che in un modo o nell’altro erano venuti da noi dicendo: ‘Guardate cosa riesco a fare con questi strumenti'”, afferma Weil.
I punti di forza di GPT-5 sembrano essere la ricerca di riferimenti e collegamenti a lavori esistenti di cui gli scienziati non erano a conoscenza, che a volte stimolano nuove idee, l’aiuto agli scienziati nella stesura di dimostrazioni matematiche e i suggerimenti agli scienziati su come testare le ipotesi in laboratorio.
“GPT 5.2 ha letto praticamente tutti gli articoli scritti negli ultimi 30 anni”, afferma Weil. “E non solo comprende il campo in cui lavora un determinato scienziato, ma è anche in grado di mettere insieme analogie provenienti da altri campi non correlati”.
“È incredibilmente potente”, continua. “Si può sempre trovare un collaboratore umano in un campo adiacente, ma è difficile trovare, sapete, mille collaboratori in tutti i mille campi adiacenti che potrebbero essere rilevanti. Inoltre, posso lavorare con il modello a tarda notte, perché non dorme, e posso chiedergli 10 cose in parallelo, cosa che sarebbe piuttosto imbarazzante fare con un essere umano”.
Risolvere i problemi
La maggior parte degli scienziati contattati da OpenAI ha sostenuto la posizione di Weil.
Robert Scherrer, professore di fisica e astronomia alla Vanderbilt University, ha giocato con ChatGPT solo per divertimento (“L’ho usato per riscrivere la sigla di Gilligan’s Island nello stile di Beowulf, e ha funzionato molto bene”, mi racconta) fino a quando il suo collega della Vanderbilt Alex Lupsasca, un collega fisico che ora lavora presso OpenAI, gli ha detto che GPT-5 lo aveva aiutato a risolvere un problema su cui stava lavorando.
Lupsasca ha concesso a Scherrer l’accesso a GPT-5 Pro, l’abbonamento premium di OpenAI dal costo mensile di 200 dollari. “È riuscito a risolvere un problema che io e il mio studente laureato non siamo riusciti a risolvere nonostante ci abbiamo lavorato per diversi mesi”, afferma Scherrer.
Non è perfetto, dice: “GTP-5 commette ancora errori stupidi. Certo, anch’io li commetto, ma quelli di GPT-5 sono ancora più stupidi”. Eppure continua a migliorare, dice: “Se le tendenze attuali continuano, e questo è un grande se, sospetto che presto tutti gli scienziati useranno gli LLM”.
Derya Unutmaz, professore di biologia presso il Jackson Laboratory, un istituto di ricerca senza scopo di lucro, utilizza GPT-5 per raccogliere idee, riassumere articoli e pianificare esperimenti nel suo lavoro di studio del sistema immunitario. Nel caso di studio che ha condiviso con OpenAI, Unutmaz ha utilizzato GPT-5 per analizzare un vecchio set di dati che il suo team aveva già esaminato in precedenza. Il modello ha fornito nuove intuizioni e interpretazioni.
“Gli LLM sono già essenziali per gli scienziati”, afferma. “Quando è possibile completare l’analisi di set di dati che prima richiedevano mesi, non utilizzarli non è più un’opzione”.
Nikita Zhivotovskiy, statistico presso l’Università della California, Berkeley, afferma di utilizzare gli LLM nella sua ricerca sin dalla uscita della prima versione di ChatGPT.
Come Scherrer, trova gli LLM particolarmente utili quando mettono in luce connessioni inaspettate tra il proprio lavoro e risultati esistenti di cui non era a conoscenza. “Credo che gli LLM stiano diventando uno strumento tecnico essenziale per gli scienziati, proprio come lo sono stati in passato i computer e Internet”, afferma. “Prevedo uno svantaggio a lungo termine per coloro che non li utilizzano”.
Tuttavia, non si aspetta che gli LLM portino a scoperte innovative nel breve termine. “Ho visto pochissime idee o argomentazioni realmente innovative che valgano la pena di essere pubblicate”, afferma. “Finora sembrano combinare principalmente risultati esistenti, a volte in modo errato, piuttosto che produrre approcci realmente nuovi”.
Ho contattato anche alcuni scienziati che non hanno alcun legame con OpenAI.
Andy Cooper, professore di chimica all’Università di Liverpool e direttore del Leverhulme Research Centre for Functional Materials Design, è meno entusiasta. “Non abbiamo ancora riscontrato che gli LLM stiano cambiando radicalmente il modo di fare scienza”, afferma. “Ma i nostri recenti risultati suggeriscono che hanno un loro ruolo”.
Cooper sta guidando un progetto per sviluppare un cosiddetto scienziato AI in grado di automatizzare completamente parti del flusso di lavoro scientifico. Afferma che il suo team non utilizza gli LLM per elaborare idee. Tuttavia, la tecnologia sta iniziando a dimostrarsi utile come parte di un sistema automatizzato più ampio in cui un LLM può aiutare a dirigere i robot, ad esempio.
“La mia ipotesi è che gli LLM potrebbero essere utilizzati maggiormente nei flussi di lavoro robotici, almeno inizialmente, perché non sono sicuro che le persone siano pronte a ricevere istruzioni da un LLM”, afferma Cooper. “Io di certo non lo sono”.
Commettere errori
Gli LLM potrebbero diventare sempre più utili, ma la cautela è ancora fondamentale. A dicembre, Jonathan Oppenheim, uno scienziato che lavora sulla meccanica quantistica, ha segnalato un errore che era stato inserito in una rivista scientifica. “La leadership di OpenAI sta promuovendo un articolo su Physics Letters B in cui GPT-5 ha proposto l’idea principale, forse il primo articolo sottoposto a revisione paritaria in cui un LLM ha generato il contributo fondamentale”, ha scritto Oppenheim su X. “C’è solo un piccolo problema: l’idea di GPT-5 verifica la cosa sbagliata”.
Ha continuato: “A GPT-5 è stato chiesto un test che rileva le teorie non lineari. Ha fornito un test che rileva quelle non locali. Sembrano simili, ma sono diverse. È come chiedere un test COVID e l’LLM ti consegna allegramente un test per la varicella”.
È chiaro che molti scienziati stanno trovando modi innovativi e intuitivi per interagire con gli LLM. È anche chiaro che la tecnologia commette errori che possono essere così sottili da sfuggire persino agli esperti.
Parte del problema è il modo in cui ChatGPT può lusingarti fino a farti abbassare la guardia. Come ha affermato Oppenheim: “Una questione fondamentale è che gli LLM vengono addestrati per convalidare l’utente, mentre la scienza ha bisogno di strumenti che ci mettano alla prova”. In un caso estremo, un individuo (che non era uno scienziato) è stato persuaso da ChatGPT a pensare per mesi di aver inventato una nuova branca della matematica.
Naturalmente, Weil è ben consapevole del problema dell’allucinazione. Tuttavia, insiste sul fatto che i modelli più recenti allucinano sempre meno. Anche così, concentrarsi sull’allucinazione potrebbe significare perdere di vista il punto, afferma.
“Uno dei miei colleghi qui, un ex professore di matematica, ha detto qualcosa che mi è rimasto impresso”, racconta Weil. “Ha detto: ‘Quando faccio ricerca, se scambio idee con un collega, il 90% delle volte mi sbaglio, ed è proprio questo il punto. Entrambi lanciamo idee a caso e cerchiamo di trovare qualcosa che funzioni'”.
“In realtà è una situazione auspicabile”, dice Weil. “Se dici abbastanza cose sbagliate e poi qualcuno inciampa in un granello di verità e l’altra persona lo coglie al volo e dice: ‘Oh, sì, non è proprio giusto, ma se noi…’ Gradualmente trovi la tua strada attraverso il bosco”.
Questa è la visione fondamentale di Weil per OpenAI for Science. GPT-5 è valido, ma non è un oracolo. Il valore di questa tecnologia sta nell’indicare alle persone nuove direzioni, non nel fornire risposte definitive, afferma.
Infatti, una delle cose che OpenAI sta valutando è quella di ridurre il livello di sicurezza di GPT-5 quando fornisce una risposta. Invece di dire “Ecco la risposta“, potrebbe dire agli scienziati: “Ecco qualcosa da considerare“.
“In realtà è qualcosa su cui stiamo dedicando molto tempo”, afferma Weil. “Cercare di assicurarci che il modello abbia una sorta di umiltà epistemologica”.
Osservare gli osservatori
Un altro aspetto su cui OpenAI sta lavorando è come utilizzare GPT-5 per verificare i fatti di GPT-5. Spesso, se si reinserisce una delle risposte di GPT-5 nel modello, questo la smonta e ne evidenzia gli errori.
“È possibile collegare il modello come suo stesso critico”, afferma Weil. “In questo modo si ottiene un flusso di lavoro in cui il modello pensa e poi passa a un altro modello, e se quest’ultimo trova degli aspetti che potrebbero essere migliorati, li riporta al modello originale e dice: ‘Ehi, aspetta un attimo, questa parte non era corretta, ma questa parte era interessante. Tienila’. È quasi come se due agenti lavorassero insieme e si vedesse il risultato solo dopo che è stato approvato dal critico”.
Ciò che Weil descrive assomiglia molto a ciò che Google DeepMind ha fatto con AlphaEvolve, uno strumento che ha integrato il proprio LLM, Gemini, in un sistema più ampio che filtrava le risposte valide da quelle non valide e le reimmetteva nel sistema per essere migliorate. Google DeepMind ha utilizzato AlphaEvolve per risolvere diversi problemi del mondo reale.
OpenAI deve affrontare la forte concorrenza delle aziende rivali, i cui LLM sono in grado di fare la maggior parte, se non tutte, le cose che essa sostiene per i propri modelli. Se è così, perché gli scienziati dovrebbero usare GPT-5 invece di Gemini o Claude di Anthropic, famiglie di modelli che stanno migliorando ogni anno? In definitiva, OpenAI for Science potrebbe essere tanto uno sforzo per piantare una bandiera in un nuovo territorio quanto qualsiasi altra cosa. Le vere innovazioni devono ancora arrivare.
“Penso che il 2026 sarà per la scienza ciò che il 2025 è stato per l’ingegneria del software”, afferma Weil. “All’inizio del 2025, se utilizzavi l’IA per scrivere la maggior parte del tuo codice, eri un early adopter. Dodici mesi dopo, invece, se non utilizzi l’IA per scrivere la maggior parte del tuo codice, probabilmente sei rimasto indietro. Ora stiamo assistendo agli stessi primi segnali per la scienza che abbiamo visto per il codice”.
Continua: “Penso che tra un anno, se sei uno scienziato e non utilizzi intensamente l’IA, perderai l’opportunità di aumentare la qualità e il ritmo del tuo pensiero”.





