Skip to main content
Stephanie Arnett/MIT Technology Review | Envato

L’azienda cinese ha tolto il velo per svelare come i laboratori più importanti potrebbero costruire i loro modelli di prossima generazione. Ora le cose si fanno interessanti.

Quando la scorsa settimana l’azienda cinese DeepSeek ha lanciato un modello linguistico di grandi dimensioni chiamato R1, ha provocato un’ondata di shock nell’industria tecnologica statunitense. Non solo R1 ha eguagliato il meglio della concorrenza nazionale, ma è stato costruito a una frazione del costo e distribuito gratuitamente.

Il mercato azionario statunitense ha perso 1.000 miliardi di dollari, il Presidente Trump l’ha definito un campanello d’allarme e l’hype si è alzato ancora una volta. “DeepSeek R1 è una delle scoperte più sorprendenti e impressionanti che abbia mai visto e, in quanto open source, un dono profondo per il mondo”, ha scritto su X l’investitore di riferimento della Silicon Valley Marc Andreessen.

Ma le innovazioni di DeepSeek non sono l’unica cosa da scoprire. Pubblicando i dettagli su come sono stati costruiti R1 e un modello precedente chiamato V3 e rilasciando i modelli gratuitamente, DeepSeek ha tolto il velo per rivelare che i modelli di ragionamento sono molto più facili da costruire di quanto si pensasse. L’azienda ha colmato il divario con i migliori laboratori del mondo.

La notizia ha messo in moto i concorrenti di tutto il mondo. Questa settimana, il gigante tecnologico cinese Alibaba ha annunciato una nuova versione del suo modello linguistico Qwen e l’Allen Institute for AI (AI2), un laboratorio no-profit statunitense, ha annunciato un aggiornamento del suo modello linguistico Tulu. Entrambi affermano che i loro ultimi modelli battono l’equivalente di DeepSeek.

Sam Altman, cofondatore e CEO di OpenAI, ha definito R1 impressionante per il suo prezzo, ma ha risposto con una promessa ottimistica: “Ovviamente forniremo modelli molto migliori”. OpenAI ha poi presentato ChatGPT Gov, una versione del suo chatbot adattata alle esigenze di sicurezza delle agenzie governative statunitensi, in un apparente cenno ai timori che l’app di DeepSeek inviasse dati alla Cina. C’è dell’altro in arrivo.

DeepSeek è diventata improvvisamente l’azienda da battere. Che cosa ha fatto esattamente per scuotere così tanto il mondo della tecnologia? Il clamore è giustificato? E che cosa possiamo imparare dal fermento su ciò che sta per accadere? Ecco cosa c’è da sapere.

Fasi di formazione

Cominciamo a capire come vengono addestrati i modelli linguistici di grandi dimensioni. Esistono due fasi principali, note come preformazione e post-formazione. Il preaddestramento è la fase di cui si parla di più. In questo processo, miliardi di documenti – un numero enorme di siti web, libri, archivi di codice e altro ancora – vengono immessi in una rete neurale più e più volte, finché questa non impara a generare un testo che assomigli al materiale di partenza, una parola alla volta. Quello che si ottiene è noto come modello di base.

Il pre-addestramento è la fase in cui si svolge la maggior parte del lavoro e può costare molto denaro. Ma come ha osservato Andrej Karpathy, cofondatore di OpenAI ed ex responsabile dell’IA di Tesla, in un discorso tenuto lo scorso anno a Microsoft Build: “I modelli base non sono assistenti. Vogliono solo completare documenti internet”.

La trasformazione di un modello linguistico di grandi dimensioni in uno strumento utile richiede una serie di passaggi aggiuntivi. Si tratta della fase di post-training, in cui il modello impara a svolgere compiti specifici come rispondere alle domande (o rispondere alle domande passo dopo passo, come nel caso di o3 di OpenAI e R1 di DeepSeek). Il modo in cui si è proceduto negli ultimi anni è stato quello di prendere un modello di base e addestrarlo a imitare esempi di coppie domanda-risposta forniti da eserciti di tester umani. Questa fase è nota come messa a punto supervisionata.

OpenAI ha poi aperto la strada a un’ulteriore fase, in cui le risposte campione del modello vengono valutate – sempre da tester umani – e tali punteggi vengono utilizzati per addestrare il modello a produrre risposte future più simili a quelle che ottengono un buon punteggio e meno simili a quelle che non lo ottengono. Questa tecnica, nota come apprendimento per rinforzo con feedback umano (RLHF), è ciò che rende i chatbot come ChatGPT così efficienti. L’RLHF è ora utilizzato in tutto il settore.

Ma queste fasi successive all’addestramento richiedono tempo. DeepSeek ha dimostrato che è possibile ottenere gli stessi risultati senza ricorrere a persone, almeno per la maggior parte del tempo. DeepSeek sostituisce la messa a punto supervisionata e l’RLHF con una fase di apprendimento per rinforzo completamente automatizzata. Invece di utilizzare il feedback umano per guidare i suoi modelli, l’azienda utilizza i punteggi di feedback prodotti da un computer.

“Saltare o ridurre il feedback umano è una cosa importante”, afferma Itamar Friedman, ex direttore della ricerca di Alibaba e ora cofondatore e CEO di Qodo, una startup di codifica dell’intelligenza artificiale con sede in Israele. “Si possono addestrare quasi completamente i modelli senza che gli esseri umani debbano svolgere il lavoro”.

Manodopera a basso costo

Lo svantaggio di questo approccio è che i computer sono bravi a valutare le risposte alle domande di matematica e di codice, ma non sono molto bravi a valutare le risposte alle domande aperte o più soggettive. Ecco perché R1 si comporta particolarmente bene nei test di matematica e codice. Per addestrare i suoi modelli a rispondere a una gamma più ampia di domande non matematiche o a svolgere compiti creativi, DeepSeek deve ancora chiedere alle persone di fornire il feedback.

Ma anche questo è più economico in Cina. “Rispetto ai mercati occidentali, il costo per creare dati di alta qualità è più basso in Cina e c’è un maggior numero di talenti con qualifiche universitarie in matematica, programmazione o ingegneria”, afferma Si Chen, vicepresidente dell’azienda australiana di intelligenza artificiale Appen ed ex responsabile della strategia di Amazon Web Services China e del gigante tecnologico cinese Tencent.

DeepSeek ha utilizzato questo approccio per costruire un modello di base, chiamato V3, che rivaleggia con il modello di punta GPT-4o di OpenAI. L’azienda ha rilasciato V3 un mese fa. La scorsa settimana R1, il nuovo modello che rivaleggia con l’o1 di OpenAI, è stato costruito sulla base di V3.

Per costruire R1, DeepSeek ha preso V3 e ha eseguito il suo ciclo di apprendimento per rinforzo più e più volte. Nel 2016 Google DeepMind ha dimostrato che questo tipo di approccio automatizzato per tentativi ed errori, senza alcun input umano, poteva prendere un modello di gioco da tavolo che faceva mosse casuali e addestrarlo a battere i grandi maestri. DeepSeek fa qualcosa di simile con i modelli linguistici di grandi dimensioni: le risposte potenziali sono trattate come possibili mosse in un gioco.

All’inizio, il modello non produceva risposte che affrontassero una domanda passo dopo passo, come voleva DeepSeek. Ma assegnando un punteggio automatico alle risposte campione del modello, il processo di formazione lo ha spinto un po’ alla volta verso il comportamento desiderato.

Alla fine, DeepSeek ha prodotto un modello che ha ottenuto buoni risultati in una serie di benchmark. Ma questo modello, chiamato R1-Zero, forniva risposte difficili da leggere e scritte in un mix di più lingue. Per dare un’ultima messa a punto, DeepSeek ha alimentato il processo di apprendimento con rinforzo con un piccolo set di dati di risposte di esempio fornite da persone. L’addestramento di R1-Zero su questi ha prodotto il modello che DeepSeek ha chiamato R1.

C’è di più. Per rendere il più efficiente possibile l’uso dell’apprendimento per rinforzo, DeepSeek ha anche sviluppato un nuovo algoritmo chiamato Group Relative Policy Optimization (GRPO). L’azienda ha utilizzato GRPO per la prima volta un anno fa, per costruire un modello chiamato DeepSeekMath.

Saltiamo i dettagli: è sufficiente sapere che l’apprendimento per rinforzo prevede il calcolo di un punteggio per determinare se una mossa potenziale è buona o cattiva. Molte delle tecniche di apprendimento per rinforzo esistenti richiedono un intero modello separato per effettuare questo calcolo. Nel caso di modelli linguistici di grandi dimensioni, ciò significa un secondo modello che potrebbe essere costoso da costruire ed eseguire quanto il primo. Invece di utilizzare un secondo modello per prevedere un punteggio, GRPO si limita a fare un’ipotesi. È economico, ma abbastanza preciso da funzionare.

Un approccio comune

L’uso dell’apprendimento per rinforzo da parte di DeepSeek è la principale innovazione che l’azienda descrive nel documento R1. Ma DeepSeek non è l’unica azienda a sperimentare questa tecnica. Due settimane prima dell’uscita di R1, un team di Microsoft Asia ha annunciato un modello chiamato rStar-Math, addestrato in modo simile. “Ha fatto passi da gigante in termini di prestazioni”, afferma Matt Zeiler, fondatore e CEO dell’azienda di intelligenza artificiale Clarifai.

Anche Tulu di AI2 è stato costruito utilizzando efficienti tecniche di apprendimento per rinforzo (ma in aggiunta, e non al posto, di fasi guidate dall’uomo come il fine-tuning supervisionato e l’RLHF). L’azienda statunitense Hugging Face sta cercando di replicare R1 con OpenR1, un clone del modello di DeepSeek che Hugging Face spera possa rivelare ancora di più gli ingredienti della salsa speciale di R1.

Inoltre, non è un segreto che aziende di punta come OpenAI, Google DeepMind e Anthropic potrebbero già utilizzare le proprie versioni dell’approccio di DeepSeek per addestrare la loro nuova generazione di modelli. “Sono sicuro che stanno facendo quasi la stessa cosa, ma avranno il loro stile personale”, dice Zeiler.

Ma DeepSeek ha più di un asso nella manica. Ha addestrato il suo modello di base V3 a fare una cosa chiamata predizione multi-token, in cui il modello impara a predire una stringa di parole in una volta sola invece che una alla volta. Questo addestramento è più economico e si rivela anche più accurato. “Se si pensa a come si parla, quando si è a metà di una frase, si sa già quale sarà il resto della frase”, dice Zeiler. “Questi modelli dovrebbero essere in grado di fare altrettanto”.

Ha anche trovato modi più economici per creare grandi insiemi di dati. Per addestrare il modello dell’anno scorso, DeepSeekMath, ha preso un set di dati gratuito chiamato Common Crawl – un enorme numero di documenti scrapati da Internet – e ha usato un processo automatizzato per estrarre solo i documenti che includevano problemi di matematica. Questo metodo è stato molto più economico rispetto alla creazione di un nuovo set di dati di problemi matematici a mano. È stato anche più efficace: Common Crawl include molti più problemi matematici di qualsiasi altro set di dati matematici specialistici disponibile.

Per quanto riguarda l’hardware, DeepSeek ha trovato nuovi modi per sfruttare i vecchi chip, consentendo di addestrare modelli di alto livello senza dover spendere per l’hardware più recente sul mercato. Secondo Zeiler, metà dell’innovazione proviene da direttamente dall’ingegneria: “Hanno sicuramente degli ingegneri delle GPU molto, molto bravi in quel team”.

Nvidia fornisce un software chiamato CUDA che gli ingegneri usano per modificare le impostazioni dei loro chip. Ma DeepSeek ha aggirato questo codice usando l’assembler, un linguaggio di programmazione che parla con l’hardware stesso, per andare ben oltre ciò che Nvidia offre in partenza. “Questo è il massimo dell’ottimizzazione di queste cose”, dice Zeiler. “Si può fare, ma fondamentalmente è così difficile che nessuno lo fa”.

La serie di innovazioni di DeepSeek su più modelli è impressionante. Ma dimostra anche che l’affermazione dell’azienda di aver speso meno di 6 milioni di dollari per addestrare V3 non è del tutto veritiera. R1 e V3 sono stati costruiti su una serie di tecnologie esistenti. “Forse l’ultimo passo, l’ultimo clic del pulsante, è costato loro 6 milioni di dollari, ma la ricerca che ha portato a questo probabilmente è costata 10 volte tanto, se non di più”, dice Friedman. In un post sul blog che ha tagliato i ponti con il clamore, il cofondatore e CEO di Anthropic Dario Amodei ha sottolineato che DeepSeek ha probabilmente circa un miliardo di dollari di chip, una stima basata su rapporti che indicano che l’azienda ha utilizzato 50.000 GPU Nvidia H100.

Un nuovo paradigma

Ma perché ora? Ci sono centinaia di startup in tutto il mondo che cercano di costruire la prossima grande cosa. Perché abbiamo visto una serie di modelli di ragionamento come o1 e o3 di OpenAI, Gemini 2.0 Flash Thinking di Google DeepMind e ora R1 apparire a poche settimane di distanza l’uno dall’altro?

La risposta è che i modelli di base – GPT-4o, Gemini 2.0, V3 – sono tutti sufficientemente validi da poter essere in grado di far ragionare un modello. “R1 dimostra che, con un modello di base abbastanza forte, l’apprendimento per rinforzo è sufficiente per ottenere un ragionamento da un modello linguistico senza alcuna supervisione umana”, afferma Lewis Tunstall, scienziato di Hugging Face.

In altre parole, le migliori aziende statunitensi potrebbero aver capito come fare, ma non hanno detto nulla. “Sembra che ci sia un modo intelligente per prendere il modello di base, il modello preaddestrato, e trasformarlo in un modello di ragionamento molto più capace”, dice Zeiler. “E fino a questo momento, la procedura necessaria per convertire un modello preaddestrato in un modello di ragionamento non era ben nota. Non era pubblica”.

L’aspetto diverso di R1 è che DeepSeek ha pubblicato come ha fatto. “E si è scoperto che non è un processo così costoso”, dice Zeiler. “La parte difficile è ottenere il modello preaddestrato”. Come ha rivelato Karpathy al Microsoft Build dello scorso anno, il preaddestramento di un modello rappresenta il 99% del lavoro e la maggior parte del costo.

Se costruire modelli di ragionamento non è così difficile come si pensava, possiamo aspettarci una proliferazione di modelli gratuiti molto più capaci di quelli che abbiamo visto finora. Friedman ritiene che, con il know-how alla luce del sole, aumenterà la collaborazione tra le piccole aziende, riducendo il vantaggio di cui hanno goduto le aziende più grandi. “Penso che questo possa essere un momento monumentale”, afferma.