Skip to main content
Stephanie Arnett/MIT Technology Review | Metropolitan Museum of Art

Ma potrebbe essere l’ultima release della classica linea LLM di OpenAI.

OpenAI ha appena rilasciato GPT-4.5, una nuova versione del suo modello linguistico di punta. L’azienda sostiene che si tratta del suo modello più grande e migliore per la chat a tutto tondo. “È davvero un passo avanti per noi”, afferma Mia Glaese, ricercatrice di OpenAI.

Dopo il rilascio dei cosiddetti modelli di ragionamento o1 e o3, OpenAI ha sviluppato due linee di prodotti. GPT-4.5 fa parte della linea non ragionante, quella che il collega di Glaese Nick Ryder, anch’egli ricercatore, definisce “una puntata della serie classica di GPT”.

Chi ha un account ChatGPT Pro da 200 dollari al mese può provare GPT-4.5 oggi. OpenAI dice che inizierà ad essere distribuito agli altri utenti la prossima settimana.

Con ogni rilascio dei suoi modelli GPT, OpenAI ha dimostrato che più grande significa migliore. Ma si è parlato molto di come questo approccio si stia scontrando con un muro, comprese le osservazioni dell’ex scienziato capo di OpenAI Ilya Sutskever . Le affermazioni dell’azienda su GPT-4.5 sono come un pollice nell’occhio per i detrattori.

Tutti i modelli linguistici di grandi dimensioni raccolgono schemi in miliardi di documenti su cui vengono addestrati. I modelli più piccoli imparano la sintassi e i fatti di base. I modelli più grandi sono in grado di trovare schemi più specifici, come gli spunti emotivi, ad esempio quando le parole di un oratore segnalano ostilità, spiega Ryder: “Tutti questi schemi sottili che emergono da una conversazione umana – questi sono i bit che questi modelli più grandi e più ampi possono cogliere”.

“Ha la capacità di impegnarsi in conversazioni calde, intuitive, naturali e fluide”, dice Glaese. “E pensiamo che abbia una comprensione più forte di ciò che gli utenti intendono, soprattutto quando le loro aspettative sono più implicite, portando a risposte sfumate e ponderate”.

Rendere il tutto più vivace

“A questo punto sappiamo com’è fatto il motore e ora si tratta di farlo funzionare”, dice Ryder. “Si tratta soprattutto di un esercizio di scalata del calcolo, di scalata dei dati, di ricerca di metodi di addestramento più efficienti e di superamento della frontiera”.

OpenAI non vuole dire esattamente quanto sia grande il suo nuovo modello. Ma sostiene che il salto di scala da GPT-4o a GPT-4.5 è uguale a quello da GPT-3.5 a GPT-4o. Gli esperti hanno stimato che GPT-4 potrebbe avere fino a 1,8 trilioni di parametri, ovvero i valori che vengono modificati durante l’addestramento di un modello.

Il GPT-4.5 è stato addestrato con tecniche simili a quelle utilizzate per il suo predecessore GPT-4o, tra cui la messa a punto guidata dall’uomo e l’apprendimento per rinforzo con feedback umano.

“La chiave per la creazione di sistemi intelligenti è una ricetta che seguiamo da molti anni, ovvero trovare paradigmi scalabili in cui possiamo investire sempre più risorse per ottenere sistemi più intelligenti”, afferma Ryder.

A differenza di modelli di ragionamento come o1 e o3, che lavorano sulle risposte passo dopo passo, la maggior parte dei modelli linguistici di grandi dimensioni come GPT-4.5 sputa la prima risposta che trova. Ma GPT-4.5 è più generico. Testato su SimpleQA, un tipo di quiz di conoscenza generale sviluppato da OpenAI l’anno scorso che include domande su argomenti che vanno dalla scienza alla tecnologia, dagli spettacoli televisivi ai videogiochi, GPT-4.5 ha ottenuto un punteggio del 62,5% rispetto al 38,6% di GPT-4o e al 15% di o3-mini.

Inoltre, OpenAI sostiene che il GPT-4.5 risponde con un numero molto inferiore di risposte inventate (note come allucinazioni). Nello stesso test, il GPT-4.5 ha sbagliato le risposte il 37,1% delle volte, rispetto al 59,8% del GPT-4o e all’80,3% dell’o3-mini.

Ma SimpleQA è solo un benchmark. In altri test, tra cui MMLU, un benchmark più comune per confrontare i modelli linguistici di grandi dimensioni, GPT-4.5 ha battuto i modelli precedenti di OpenAI con un margine minore. E nei benchmark scientifici e matematici standard, GPT-4.5 ottiene risultati peggiori di o3-mini.

Accendere il fascino

Il fascino speciale di GPT-4.5 sembra essere la sua capacità di conversazione. I tester umani impiegati da OpenAI dicono di aver preferito GPT-4.5 a GPT-4o per le domande di tutti i giorni, per quelle professionali e per i compiti creativi, tra cui l’ideazione di poesie. (Ryder dice che è ottimo anche per l’arte ACSII della vecchia scuola di Internet).

Per esempio, ditegli che state attraversando un brutto periodo e GPT-4.5 potrebbe offrire qualche parola di solidarietà prima di dire: “Vuoi parlare di quello che è successo o hai solo bisogno di distrarti? Sono qui in ogni caso”. GPT-4o è meno bravo a leggere gli indizi sociali e potrebbe cercare di risolvere il problema, sia che glielo abbiate chiesto voi, sia che non l’abbiate chiesto voi, proponendovi un elenco puntuale di modi per tirarvi su.

Eppure, dopo anni di leadership, OpenAI si trova di fronte a un pubblico difficile. “L’attenzione all’intelligenza emotiva e alla creatività è interessante per casi d’uso di nicchia, come gli allenatori di scrittura e i compagni di brainstorming”, afferma Waseem Alshikh, cofondatore e CTO di Writer, una startup che sviluppa modelli linguistici di grandi dimensioni per clienti aziendali.

“Ma GPT-4.5 sembra una nuova vernice sulla stessa vecchia auto”, dice. “Lanciando più calcoli e dati su un modello si può renderlo più fluido, ma non si può dire che cambi le carte in tavola”.

“Il succo non vale la candela se si considerano i costi energetici e il fatto che la maggior parte degli utenti non noterà la differenza nell’uso quotidiano”, afferma. “Preferirei che si orientassero verso l’efficienza o la soluzione di problemi di nicchia piuttosto che continuare a sovradimensionare la stessa ricetta”.

Sam Altman ha dichiarato che GPT-4.5 sarà l’ultima release della linea classica di OpenAI e che GPT-5 sarà un ibrido che combina un modello di linguaggio generale di grandi dimensioni con un modello di ragionamento.

“GPT-4.5 è un’iniziativa di OpenAI che si limita a fare da padrone mentre prepara qualcosa di più grande a porte chiuse”, dice Alshikh. “Fino ad allora, questo sembra un pit stop”.

Naturalmente, OpenAI insiste sul fatto che il suo approccio sovradimensionato è ancora valido. “Personalmente, sono molto ottimista sulla possibilità di trovare un modo per superare questi colli di bottiglia e continuare a scalare”, dice Ryder. “Penso che ci sia qualcosa di estremamente profondo ed eccitante nell’abbinamento di modelli in tutta la conoscenza umana”.