
Una conversazione esclusiva con Jakub Pachocki, capo ricercatore di OpenAI, sulla nuova grande sfida della sua azienda e sul futuro dell’IA.
OpenAI sta riorientando i propri sforzi di ricerca e investendo le proprie risorse in una nuova grande sfida. L’azienda di San Francisco ha puntato a realizzare quello che definisce un “ricercatore IA”, un sistema basato su agenti completamente automatizzato che sarà in grado di affrontare da solo problemi grandi e complessi. OpenAI afferma che questo nuovo obiettivo di ricerca sarà la sua “stella polare” per i prossimi anni, riunendo molteplici filoni di ricerca, tra cui il lavoro sui modelli di ragionamento, sugli agenti e sull’interpretabilità.
C’è persino una tempistica. OpenAI prevede di realizzare entro settembre “un tirocinante di ricerca IA autonomo”, un sistema in grado di affrontare autonomamente un numero limitato di problemi di ricerca specifici. Il tirocinante IA sarà il precursore di un sistema di ricerca multi-agente completamente automatizzato che l’azienda prevede di lanciare nel 2028. Questo ricercatore IA (secondo OpenAI) sarà in grado di affrontare problemi troppo grandi o complessi per essere gestiti dagli esseri umani.
Tali compiti potrebbero riguardare la matematica e la fisica – come l’elaborazione di nuove dimostrazioni o congetture – o le scienze della vita come la biologia e la chimica, o persino dilemmi aziendali e politici. In teoria, si potrebbe affidare a tale strumento qualsiasi tipo di problema che possa essere formulato in testo, codice o appunti su una lavagna – il che copre un ampio spettro.
OpenAI detta l’agenda del settore dell’IA da anni. Il suo dominio iniziale con i modelli linguistici di grandi dimensioni ha plasmato la tecnologia che centinaia di milioni di persone utilizzano ogni giorno. Ma ora deve affrontare la feroce concorrenza di produttori di modelli rivali come Anthropic e Google DeepMind. Ciò che OpenAI deciderà di sviluppare in futuro è importante, sia per se stessa che per il futuro dell’IA.
Gran parte di questa decisione spetta a Jakub Pachocki, capo scienziato di OpenAI, che definisce gli obiettivi di ricerca a lungo termine dell’azienda. Pachocki ha svolto un ruolo chiave nello sviluppo sia di GPT-4, un LLM rivoluzionario rilasciato nel 2023, sia dei cosiddetti modelli di ragionamento, una tecnologia apparsa per la prima volta nel 2024 e che ora è alla base di tutti i principali chatbot e sistemi basati su agenti.
In un’intervista esclusiva questa settimana, Pachocki mi ha illustrato l’ultima visione di OpenAI. “Penso che ci stiamo avvicinando a un punto in cui avremo modelli in grado di lavorare all’infinito in modo coerente, proprio come fanno le persone”, afferma. “Naturalmente, si vorranno ancora persone al comando che fissino gli obiettivi. Ma penso che arriveremo a un punto in cui si avrà una sorta di intero laboratorio di ricerca in un data center”.
Risolvere problemi difficili
Affermazioni così ambiziose non sono una novità. Salvare il mondo risolvendo i suoi problemi più difficili è la missione dichiarata di tutte le principali aziende di IA. Demis Hassabis mi disse nel 2022 che era proprio questo il motivo per cui aveva fondato DeepMind. Il CEO di Anthropic, Dario Amodei, afferma di stare costruendo l’equivalente di un paese di geni in un data center. Il capo di Pachocki, Sam Altman, vuole curare il cancro. Ma Pachocki sostiene che OpenAI disponga ormai di gran parte di ciò che serve per raggiungere tale obiettivo.
A gennaio, OpenAI ha rilasciato Codex, un’app basata su agenti in grado di generare codice al volo per eseguire attività sul computer. Può analizzare documenti, generare grafici, creare un riepilogo giornaliero della posta in arrivo e dei social media e molto altro ancora. (Altre aziende hanno rilasciato strumenti simili, come Claude Code e Claude Cowork di Anthropic.)
OpenAI sostiene che la maggior parte del suo personale tecnico ora utilizza Codex nel proprio lavoro. Si può considerare Codex come una versione molto precoce del ricercatore di IA, afferma Pachocki: “Mi aspetto che Codex migliori in modo sostanziale.”
La chiave è realizzare un sistema in grado di funzionare per periodi di tempo più lunghi, con una minore guida umana. “Ciò che stiamo realmente cercando per un tirocinante di ricerca automatizzato è un sistema a cui poter delegare compiti che richiederebbero a una persona alcuni giorni”, afferma Pachocki.
«Ci sono molte persone entusiaste all’idea di costruire sistemi in grado di svolgere ricerche scientifiche di più lunga durata», afferma Doug Downey, ricercatore presso l’Allen Institute for AI, che non è collegato a OpenAI. «Penso che ciò sia in gran parte guidato dal successo di questi agenti di codifica. Il fatto di poter delegare compiti di programmazione piuttosto consistenti a strumenti come Codex è incredibilmente utile e impressionante. E solleva la domanda: possiamo fare cose simili al di fuori della programmazione, in aree più ampie della scienza?”
Per Pachocki, la risposta è chiaramente sì. Infatti, pensa che si tratti semplicemente di proseguire sulla strada che abbiamo già intrapreso. Un semplice potenziamento delle capacità generali porta anche a modelli in grado di lavorare più a lungo senza aiuto, afferma. Cita il salto da GPT-3 del 2020 a GPT-4 del 2023, due dei precedenti modelli di OpenAI. GPT-4 era in grado di lavorare su un problema per molto più tempo rispetto al suo predecessore, anche senza un addestramento specializzato, afferma.
I cosiddetti modelli di ragionamento hanno portato un’ulteriore spinta. Addestrare gli LLM a risolvere i problemi passo dopo passo, tornando indietro quando commettono un errore o si trovano in un vicolo cieco, ha anche reso i modelli più efficienti nel lavorare per periodi di tempo più lunghi. E Pachocki è convinto che i modelli di ragionamento di OpenAI continueranno a migliorare.
Ma OpenAI sta anche addestrando i propri sistemi a lavorare autonomamente più a lungo, fornendo loro campioni specifici di compiti complessi, come difficili enigmi tratti da concorsi di matematica e programmazione, che costringono i modelli a imparare come gestire grandi blocchi di testo e suddividere i problemi in (e poi gestire) più sotto-compiti.
L’obiettivo non è quello di costruire modelli che si limitino a vincere concorsi di matematica. “Questo permette di dimostrare che la tecnologia funziona prima di collegarla al mondo reale”, afferma Pachocki. “Se davvero volessimo, potremmo costruire un fantastico matematico automatizzato. Abbiamo tutti gli strumenti e penso che sarebbe relativamente facile. Ma non è qualcosa a cui daremo la priorità ora perché, sapete, nel momento in cui credete di poterlo fare, ci sono cose molto più urgenti da fare”.
«Ora siamo molto più concentrati sulla ricerca che sia rilevante nel mondo reale», aggiunge.
Al momento ciò significa prendere ciò che Codex è in grado di fare con la programmazione e cercare di applicarlo alla risoluzione dei problemi in generale. “Sta avvenendo un grande cambiamento, specialmente nella programmazione”, afferma. “I nostri lavori ora sono totalmente diversi da come erano anche solo un anno fa. Nessuno modifica più il codice tutto il tempo c . Invece, si gestisce un gruppo di agenti Codex.” Se Codex è in grado di risolvere problemi di programmazione (secondo questa argomentazione), può risolvere qualsiasi problema.
La linea sale sempre
È vero che OpenAI ha ottenuto una serie di successi notevoli negli ultimi mesi. I ricercatori hanno utilizzato GPT-5 (l’LLM che alimenta Codex) per scoprire nuove soluzioni a una serie di problemi matematici irrisolti e superare apparenti vicoli ciechi in una manciata di enigmi di biologia, chimica e fisica.
«Il solo fatto di vedere questi modelli elaborare idee che richiederebbero alla maggior parte dei dottori di ricerca almeno settimane di lavoro mi fa prevedere che assisteremo a un’accelerazione molto maggiore derivante da questa tecnologia nel prossimo futuro», afferma Pachocki.
Ma Pachocki ammette che non è ancora detta l’ultima parola. Capisce anche perché alcune persone nutrano ancora dei dubbi su quanto questa tecnologia possa davvero rivoluzionare il settore. Ritiene che dipenda dal modo in cui le persone amano lavorare e da ciò che devono fare. “Posso credere che alcune persone non la trovino ancora molto utile”, afferma.
Mi racconta che fino a un anno fa non utilizzava nemmeno il completamento automatico, la versione più elementare della tecnologia di programmazione generativa. «Sono molto pignolo riguardo al mio codice», afferma. «Se posso, preferisco digitare tutto manualmente in Vim.» (Vim è un editor di testo molto apprezzato dai programmatori più esperti, con cui si interagisce tramite decine di scorciatoie da tastiera anziché con il mouse.)
Ma le cose sono cambiate quando ha visto cosa potevano fare i modelli più recenti. Non affiderebbe ancora compiti di progettazione complessi, ma è un risparmio di tempo quando vuole solo provare qualche idea. «Posso fargli eseguire in un fine settimana esperimenti che prima mi avrebbero richiesto una settimana di programmazione», dice.
“Non credo che sia ancora a un livello tale da permettergli di prendere le redini e progettare l’intero progetto”, aggiunge. “Ma una volta che lo vedi fare qualcosa che richiederebbe una settimana, beh, è difficile dargli torto.”
Il piano di Pachocki è quello di potenziare le attuali capacità di risoluzione dei problemi di strumenti come Codex e applicarle in tutti i campi scientifici.
Downey concorda sul fatto che l’idea di un ricercatore automatizzato sia molto interessante: “Sarebbe entusiasmante se domani mattina potessimo tornare e l’agente avesse svolto un sacco di lavoro e ci fossero nuovi risultati da esaminare”, afferma.
Ma avverte che costruire un sistema del genere potrebbe essere più difficile di quanto Pachocki lasci intendere. L’estate scorsa, Downey e i suoi colleghi hanno testato diversi modelli di LLM di alto livello su una serie di compiti scientifici. L’ultimo modello di OpenAI, GPT-5, si è classificato al primo posto, ma ha comunque commesso molti errori.
“Se si devono concatenare più compiti, la probabilità di risolverne diversi in successione tende a diminuire”, afferma. Downey ammette che le cose cambiano rapidamente e che non ha testato le ultime versioni di GPT-5 (OpenAI ha rilasciato GPT-5.4 due settimane fa). “Quindi quei risultati potrebbero già essere superati”, dice.
Gravi questioni irrisolte
Ho chiesto a Pachocki quali siano i rischi che potrebbero derivare da un sistema in grado di risolvere da solo problemi grandi e complessi con una supervisione umana minima. Pachocki dice che le persone di OpenAI parlano continuamente di questi rischi.
«Se credi che l’IA stia per accelerare in modo sostanziale la ricerca, compresa quella sull’IA stessa, si tratta di un grande cambiamento nel mondo. È una cosa enorme», mi ha detto. «E comporta alcune serie domande senza risposta. Se è così intelligente e capace, se può gestire un intero programma di ricerca, cosa succederebbe se facesse qualcosa di male?»
Secondo Pachocki, ciò potrebbe accadere in diversi modi. Il sistema potrebbe andare fuori controllo. Potrebbe essere hackerato. Oppure potrebbe semplicemente fraintendere le istruzioni.
La tecnica migliore che OpenAI ha al momento per affrontare queste preoccupazioni è addestrare i propri modelli di ragionamento a condividere dettagli su ciò che stanno facendo mentre lavorano. Questo approccio per tenere sotto controllo gli LLM è noto come monitoraggio della catena di pensiero.
In breve, gli LLM vengono addestrati a prendere appunti su ciò che stanno facendo in una sorta di blocco note mentre eseguono i compiti. I ricercatori possono quindi utilizzare tali appunti per assicurarsi che un modello si comporti come previsto. Ieri OpenAI ha pubblicato nuovi dettagli su come sta utilizzando il monitoraggio della catena di pensiero internamente per studiare Codex.
“Una volta che avremo sistemi che funzionano in modo prevalentemente autonomo per un lungo periodo in un grande data center, penso che questo sarà qualcosa su cui faremo davvero affidamento”, afferma Pachocki.
L’idea sarebbe quella di monitorare i blocchi note di un ricercatore di IA utilizzando altri LLM e individuare comportamenti indesiderati prima che diventino un problema, piuttosto che cercare di impedire che quel comportamento scorretto si verifichi in primo luogo. Gli LLM non sono ancora sufficientemente compresi per poterli controllare appieno.
“Penso che ci vorrà molto tempo prima di poter dire: ‘Ok, questo problema è risolto'”, afferma. “Finché non ci si può davvero fidare dei sistemi, è sicuramente meglio avere delle restrizioni in atto.” Pachocki ritiene che i modelli molto potenti dovrebbero essere implementati in sandbox, isolati da qualsiasi cosa possano danneggiare o utilizzare per causare danni.
Gli strumenti di IA sono già stati utilizzati per ideare nuovi attacchi informatici. Alcuni temono che possano essere utilizzati per progettare agenti patogeni sintetici che potrebbero essere impiegati come armi biologiche. Qui si potrebbero inserire innumerevoli storie di spavento su scienziati malvagi. “Penso decisamente che ci siano scenari preoccupanti che possiamo immaginare”, afferma Pachocki.
«Sarà una cosa molto strana. Si tratta di un potere estremamente concentrato che, per certi versi, non ha precedenti», afferma Pachocki. «Immaginate di arrivare a un mondo in cui avete un data center in grado di svolgere tutto il lavoro che possono fare OpenAI o Google. Cose che in passato richiedevano grandi organizzazioni umane ora sarebbero svolte da un paio di persone».
«Penso che questa sia una grande sfida che i governi devono affrontare», aggiunge.
Eppure alcuni direbbero che i governi sono parte del problema. Il governo degli Stati Uniti vuole utilizzare l’IA sul campo di battaglia, per esempio. Il recente scontro tra Anthropic e il Pentagono ha rivelato che c’è poco consenso nella società su dove tracciare i limiti su come questa tecnologia dovrebbe e non dovrebbe essere utilizzata – per non parlare di chi dovrebbe tracciarli. All’indomani di quella disputa, OpenAI si è fatta avanti per firmare un accordo con il Pentagono al posto del suo rivale. La situazione rimane poco chiara.
Ho insistito con Pachocki su questo punto. Si fida davvero che siano gli altri a risolvere la questione o, in quanto architetto chiave del futuro, sente una responsabilità personale? “Sento una responsabilità personale”, dice. “Ma non credo che questo possa essere risolto da OpenAI da sola, spingendo la sua tecnologia in un modo particolare o progettando i suoi prodotti in un modo particolare. Avremo sicuramente bisogno di un grande coinvolgimento da parte dei responsabili politici”.
A che punto siamo? Siamo davvero sulla strada verso il tipo di IA che Pachocki immagina? Quando l’ho chiesto a Downey dell’Allen Institute, ha riso. “Lavoro in questo campo da un paio di decenni e non mi fido più delle mie previsioni su quanto siano vicine o lontane certe capacità”, dice.
La missione dichiarata di OpenAI è garantire che l’intelligenza artificiale generale (una tecnologia ipotetica futura che molti sostenitori dell’IA ritengono sarà in grado di eguagliare gli esseri umani nella maggior parte dei compiti cognitivi) vada a beneficio di tutta l’umanità. OpenAI mira a farlo essendo la prima a realizzarla. Ma l’unica volta che Pachocki ha menzionato l’AGI nella nostra conversazione, si è affrettato a chiarire cosa intendesse parlando invece di “tecnologia economicamente trasformativa”.
I modelli di linguaggio (LLM) non sono come il cervello umano, afferma: «Sono superficialmente simili alle persone in alcuni modi perché sono addestrati principalmente su discorsi umani. Ma non sono stati plasmati dall’evoluzione per essere davvero efficienti».
“Anche entro il 2028, non mi aspetto che avremo sistemi intelligenti come le persone sotto tutti gli aspetti. Non credo che ciò accadrà”, aggiunge. “Ma non credo che sia assolutamente necessario. La cosa interessante è che non è necessario essere intelligenti come le persone in tutto e per tutto per essere davvero trasformativi”.







