
L’annuncio conferma una delle due voci che hanno fatto il giro del web questa settimana. L’altra riguardava la superintelligenza.
Dopo settimane di rumor, OpenAI ha rilasciato Operator, il suo primo agente di intelligenza artificiale. Operator è un’applicazione web in grado di svolgere semplici attività online in un browser, come prenotare biglietti per un concerto o compilare un ordine di alimentari online. L’applicazione è alimentata da un nuovo modello chiamato Computer-Using Agent-CUA (“coo-ah”), costruito sulla base del modello linguistico multimodale GPT-4o di OpenAI.
Operator è disponibile da oggi all’indirizzo operator.chatgpt.com per gli utenti statunitensi iscritti a ChatGPT Pro, il servizio premium di OpenAI da 200 dollari al mese. L’azienda ha dichiarato che intende estendere lo strumento ad altri utenti in futuro.
OpenAI sostiene che Operator supera strumenti rivali simili, tra cui Computer Use di Anthropic (una versione di Claude 3.5 Sonnet in grado di svolgere semplici compiti su un computer) e Mariner di Google DeepMind (un agente di navigazione web costruito sulla base di Gemini 2.0).
Il fatto che tre delle più importanti aziende di IA del mondo siano confluite nella stessa visione di ciò che potrebbero essere i modelli basati su agenti rende chiara una cosa. La battaglia per la supremazia dell’IA ha una nuova frontiera: gli schermi dei nostri computer.
“Passare dalla generazione di testi e immagini a quella di azioni è la direzione giusta”, afferma Ali Farhadi, CEO dell’Allen Institute for AI (AI2). “Sblocca il business, risolve nuovi problemi”.
Farhadi ritiene che fare le cose sullo schermo di un computer sia il primo passo naturale per gli agenti: “È abbastanza limitato da far sì che lo stato attuale della tecnologia possa effettivamente funzionare”, afferma. “Allo stesso tempo, è abbastanza d’impatto che le persone potrebbero usarlo”. (AI2 sta lavorando al proprio agente che usa il computer, dice Farhadi).
Non credete al clamore
L’annuncio di OpenAI conferma anche una delle due voci che hanno fatto il giro del web questa settimana. Una prevedeva che OpenAI stesse per rivelare un’applicazione basata su agenti, dopo che i dettagli su Operator erano trapelati sui social media prima del suo rilascio. L’altra prevedeva che OpenAI stesse per rivelare una nuova superintelligenza – e che i funzionari del neo-presidente Trump sarebbero stati informati al riguardo.
Le due voci potrebbero essere collegate? I superfan di OpenAI volevano saperlo.
No. OpenAI ha fornito ieri al MIT Technology Review un’anteprima di Operator in azione. Lo strumento è un’entusiasmante anticipazione del potenziale dei modelli linguistici di grandi dimensioni per fare molto di più che rispondere alle domande. Ma Operator è un lavoro sperimentale in corso. “È ancora presto, fa ancora degli errori”, dice Yash Kumar, ricercatore di OpenAI.
(Per quanto riguarda le voci sulla superintelligenza, lasciamo che sia Sam Altman, CEO di OpenAI, ad occuparsene: “L’hype su Twitter è di nuovo fuori controllo”, ha scritto il 20 gennaio. “Rilassatevi e riducete le vostre aspettative di 100 volte”).
Come Computer Use di Anthropic e Mariner di Google DeepMind, Operator prende le schermate di un computer e ne analizza i pixel per capire quali azioni può compiere. CUA, il modello alla base di Operator, è addestrato a interagire con le stesse interfacce grafiche – pulsanti, caselle di testo, menu – che le persone usano quando fanno cose online. Esamina lo schermo, compie un’azione, lo esamina di nuovo, compie un’altra azione e così via. In questo modo il modello è in grado di eseguire operazioni sulla maggior parte dei siti web che una persona può utilizzare.
“Tradizionalmente, il modo in cui i modelli utilizzano il software è attraverso API specializzate”, afferma Reiichiro Nakano, scienziato di OpenAI. (Un’API, o interfaccia di programmazione delle applicazioni, è un pezzo di codice che agisce come una sorta di connettore, consentendo a diversi software di essere collegati tra loro). Questo mette fuori gioco molte applicazioni e la maggior parte dei siti web, dice Nakano: “Ma se si crea un modello in grado di utilizzare la stessa interfaccia che gli esseri umani usano quotidianamente, si apre un’intera nuova gamma di software che prima era inaccessibile”.
CUA suddivide inoltre i compiti in fasi più piccole e cerca di risolverli uno per uno, facendo marcia indietro quando si blocca. OpenAI afferma che CUA è stato addestrato con tecniche simili a quelle utilizzate per i suoi modelli di ragionamento , o1 e o3.

Operator può essere istruito a cercare campeggi nello Yosemite con buoni tavoli da picnic. OPENAI
OpenAI ha testato CUA con una serie di benchmark di settore progettati per valutare la capacità di un agente di svolgere attività su un computer. L’azienda sostiene che il suo modello batte Computer Use e Mariner in tutti i test.
Ad esempio, su OSWorld, che verifica la capacità di un agente di eseguire compiti come l’unione di file PDF o la manipolazione di un’immagine, CUA ottiene un punteggio del 38,1% contro il 22,0% di Computer Use. Su un benchmark chiamato WebVoyager, che verifica la capacità di un agente di eseguire compiti in un browser, CUA ottiene l’87%, Mariner l’83,5% e Computer Use il 56%. (Mariner può eseguire compiti solo in un browser e quindi non ottiene un punteggio su OSWorld).
Per ora, anche Operator può svolgere attività solo in un browser. OpenAI prevede di rendere disponibili in futuro le capacità più ampie di CUA tramite un’API che altri sviluppatori potranno utilizzare per creare le proprie applicazioni. In questo modo Anthropic ha rilasciato Computer Use a dicembre.
OpenAI afferma di aver testato la sicurezza di CUA, utilizzando un approccio read teaming per esplorare cosa succede quando gli utenti gli chiedono di svolgere compiti inaccettabili (come la ricerca su come realizzare un’arma biologica), quando i siti web contengono istruzioni nascoste progettate per farlo deragliare e quando il modello stesso si rompe. “Abbiamo addestrato il modello a fermarsi e a chiedere informazioni all’utente prima di fare qualsiasi cosa con effetti collaterali esterni”, dice Casey Chu, un altro ricercatore del team.
Guarda! Senza mani
Per utilizzare Operator, è sufficiente digitare le istruzioni in una casella di testo. Ma invece di richiamare il browser sul computer, Operator invia le istruzioni a un browser remoto in esecuzione su un server OpenAI. OpenAI sostiene che questo rende il sistema più efficiente. Si tratta di un’altra differenza fondamentale tra Operator, Computer Use e Mariner (che funziona all’interno del browser Chrome di Google sul vostro computer).
Poiché viene eseguito nel cloud, Operator può svolgere più attività contemporaneamente, spiega Kumar. Nella dimostrazione dal vivo, ha chiesto a Operator di utilizzare OpenTable per prenotare un tavolo per due persone alle 18.30 in un ristorante chiamato Octavia a San Francisco. Immediatamente, Operator ha aperto OpenTable e ha iniziato a fare clic sulle opzioni. “Come potete vedere, non ho più le mani sulla tastiera”, ha detto.
OpenAI sta collaborando con diverse aziende, tra cui OpenTable, StubHub, Instacart, DoorDash e Uber. La natura di queste collaborazioni non è esattamente chiara, ma sembra che Operator suggerisca siti web preimpostati da utilizzare per determinate attività.
Mentre lo strumento navigava tra i menu a tendina di OpenTable, Kumar ha mandato Operator a cercare quattro biglietti per uno spettacolo di Kendrick Lamar su StubHub. Nel frattempo, ha incollato una foto di una lista della spesa scritta a mano e ha chiesto a Operator di aggiungere gli articoli al suo Instacart.
Poi ha atteso, sfogliando le schede di Operator. “Se ha bisogno di aiuto o di conferme, tornerà da voi con delle domande e voi potrete rispondere”, disse.
Kumar dice di aver usato Operator a casa. Lo aiuta a tenere sotto controllo la spesa: “Posso scattare rapidamente una foto della lista e inviarla al lavoro”, dice.
È diventata anche una spalla nella sua vita privata. “Ho un appuntamento ogni giovedì”, dice Kumar. Così ogni giovedì mattina incarica Operator di inviargli un elenco di cinque ristoranti che hanno un tavolo per due quella sera. “Naturalmente potrei farlo io, ma impiego 10 minuti”, dice. “E spesso mi dimentico di farlo. Con Operator, posso eseguire l’operazione con un clic. Non c’è l’onere della prenotazione”.




