Skip to main content

Finora la maggior parte dei progressi dell’LLM è stata guidata dal linguaggio. Questo nuovo modello entra nel campo del ragionamento complesso, con implicazioni per la fisica, la codifica e altro ancora.

Lo scorso fine settimana mi sono sposato in un campo estivo e durante la giornata i nostri ospiti si sono sfidati in una serie di giochi ispirati al programma Survivor che io e la mia attuale moglie abbiamo organizzato. Quando abbiamo organizzato i giochi in agosto, volevamo che una stazione fosse una sfida di memoria, in cui i nostri amici e familiari avrebbero dovuto memorizzare parte di una poesia e poi trasmetterla ai loro compagni di squadra in modo che potessero ricrearla con una serie di tessere di legno.

Ho pensato che GPT-4o di OpenAI, il suo modello di punta all’epoca, sarebbe stato perfettamente adatto ad aiutarci. Gli chiesi di creare una breve poesia a tema matrimoniale, con il vincolo che ogni lettera potesse comparire solo un certo numero di volte, in modo da assicurarci che le squadre fossero in grado di riprodurla con il set di tessere fornito. GPT-4o ha fallito miseramente. Il modello insisteva ripetutamente sul fatto che la sua poesia funzionava all’interno dei vincoli, anche se non era così. Contava correttamente le lettere solo dopo la segnalazione dell’errore, continuando a consegnare poesie che non si adattavano alla richiesta. Non avendo il tempo di creare meticolosamente i versi a mano, abbiamo abbandonato l’idea della poesia e abbiamo sfidato gli ospiti a memorizzare una serie di forme fatte con piastrelle colorate. (Questo è stato un vero successo per i nostri amici e familiari, che si sono sfidati anche a dodgeball, lancio di uova e cattura la bandiera).   

Tuttavia, la scorsa settimana OpenAI ha rilasciato un nuovo modello chiamato o1 (in precedenza indicato con il nome in codice “Strawberry” e, prima ancora, Q*) che ha fatto saltare in aria il GPT-4o per questo tipo di scopo.

A differenza dei modelli precedenti, che sono adatti a compiti linguistici come la scrittura e l’editing, OpenAI o1 si concentra sul “ragionamento” in più fasi, il tipo di processo richiesto per la matematica avanzata, il coding o altri quesiti basati sulle STEM. Secondo OpenAI, utilizza una tecnica di “catena di pensiero”. “Impara a riconoscere e a correggere i propri errori. Impara a scomporre i passaggi difficili in altri più semplici. Impara a provare un approccio diverso quando quello attuale non funziona”, ha scritto l’azienda in un post sul suo sito web.

I test di OpenAI indicano un successo clamoroso. Il modello si è classificato all’89° percentile nelle domande dell’organizzazione competitiva di coding Codeforces e sarebbe tra i primi 500 studenti delle scuole superiori nelle Olimpiadi di matematica degli Stati Uniti, che riguardano la geometria, la teoria dei numeri e altri argomenti matematici. Il modello è anche addestrato a rispondere a domande di livello dottorale in materie che vanno dall’astrofisica alla chimica organica.

Nelle domande delle Olimpiadi di matematica, il nuovo modello ha ottenuto un’accuratezza dell’83,3%, contro il 13,4% del GPT-4o. Nelle domande di livello dottorale, ha ottenuto un’accuratezza media del 78%, rispetto al 69,7% degli esperti umani e al 56,1% del GPT-4o. (Alla luce di questi risultati, non sorprende che il nuovo modello sia stato piuttosto bravo a scrivere una poesia per i nostri giochi nuziali, anche se non è ancora perfetto; ha usato più T e S di quanto richiesto dalle istruzioni).

Perché questo è importante? Finora la maggior parte dei progressi dei LLM è stata orientata al linguaggio, dando vita a chatbot o assistenti vocali in grado di interpretare, analizzare e generare parole. Ma oltre a sbagliare molti fatti, questi LLM non sono riusciti a dimostrare il tipo di competenze necessarie per risolvere problemi importanti in campi come la scoperta di farmaci, la scienza dei materiali, la codifica o la fisica. OpenAI o1 è uno dei primi segnali del fatto che i LLM potrebbero presto diventare dei compagni davvero utili per i ricercatori umani in questi campi.

Si tratta di una novità importante perché porta il ragionamento “a catena” in un modello di intelligenza artificiale a un pubblico di massa, afferma Matt Welsh, ricercatore di intelligenza artificiale e fondatore della startup Fixie.

“Le capacità di ragionamento sono direttamente nel modello, invece di dover utilizzare strumenti separati per ottenere risultati simili. Mi aspetto che questo modello alzi l’asticella di ciò che le persone si aspettano che i modelli di intelligenza artificiale siano in grado di fare”, afferma Welsh.

Detto questo, è meglio prendere con le molle i paragoni di OpenAI con le “abilità di livello umano”, afferma Yves-Alexandre de Montjoye, professore associato di matematica e informatica all’Imperial College di Londra. È molto difficile confrontare in modo significativo il modo in cui i LLM e le persone affrontano compiti come la risoluzione di problemi matematici da zero.

Inoltre, i ricercatori di IA affermano che misurare la capacità di “ragionare” di un modello come o1 è più difficile di quanto sembri. Se risponde correttamente a una domanda, è perché ha ragionato con successo per arrivare alla risposta logica? Oppure è stato aiutato da un sufficiente punto di partenza di conoscenza incorporato nel modello? Il modello “è ancora insufficiente quando si tratta di ragionare in modo aperto”, ha scritto François Chollet, ricercatore di Google AI, su X.

Infine, il prezzo. Questo modello di ragionamento non è economico. Sebbene l’accesso ad alcune versioni del modello sia incluso negli abbonamenti premium di OpenAI, gli sviluppatori che utilizzano o1 attraverso le API pagheranno il triplo rispetto a GPT-4o: 15 dollari per 1 milione di token di input in o1, contro i 5 dollari di GPT-4o. Inoltre, il nuovo modello non sarà la prima scelta della maggior parte degli utenti per i compiti più impegnativi dal punto di vista linguistico, per i quali GPT-4o continua a essere l’opzione migliore, secondo i sondaggi condotti dagli utenti di OpenAI.

Che cosa sbloccherà? Non lo sapremo fino a quando i ricercatori e i laboratori non avranno accesso, tempo e budget per armeggiare con la nuova modalità e scoprirne i limiti. Ma è sicuramente un segno che la corsa ai modelli in grado di ragionare più degli esseri umani è iniziata.

Leave a Reply