Skip to main content
Stephanie Arnett/ MIT Technology Review | Rawpixel

Con un nuovo modello di ragionamento che eguaglia le prestazioni di ChatGPT o1, DeepSeek è riuscito a trasformare le restrizioni in innovazione.

La comunità dell’intelligenza artificiale è in fermento per DeepSeek R1, un nuovo modello di ragionamento open-source.

Il modello è stato sviluppato dalla startup cinese DeepSeek, che sostiene che R1 eguaglia o addirittura supera ChatGPT o1 di OpenAI su diversi benchmark chiave, ma opera a una frazione del costo.

“Questa potrebbe essere una svolta davvero equa, ottima per i ricercatori e gli sviluppatori con risorse limitate, soprattutto quelli del Sud globale”, afferma Hancheng Cao, professore assistente di sistemi informativi alla Emory University.

Il successo di DeepSeek è ancora più notevole se si considerano i vincoli imposti alle aziende cinesi di IA dall’aumento dei controlli sulle esportazioni di chip all’avanguardia negli Stati Uniti. Ma le prime prove dimostrano che queste misure non stanno funzionando come previsto. Piuttosto che indebolire le capacità di IA della Cina, le sanzioni sembrano spingere startup come DeepSeek a innovare in modi che privilegiano l’efficienza, la condivisione delle risorse e la collaborazione.

Per creare R1, DeepSeek ha dovuto rielaborare il suo processo di addestramento per ridurre lo sforzo sulle sue GPU, una varietà rilasciata da Nvidia per il mercato cinese che ha prestazioni limitate alla metà della velocità dei suoi prodotti di punta, secondo Zihan Wang, ex dipendente di DeepSeek e attuale dottorando in informatica alla Northwestern University.

DeepSeek R1 è stato apprezzato dai ricercatori per la sua capacità di affrontare compiti di ragionamento complessi, in particolare in matematica e codifica. Il modello impiega un approccio “a catena di pensiero” simile a quello utilizzato da ChatGPT o1, che gli consente di risolvere i problemi elaborando le richieste passo dopo passo.

Dimitris Papailiopoulos, ricercatore principale del laboratorio di ricerca AI Frontiers di Microsoft, afferma che ciò che lo ha sorpreso di più di R1 è la sua semplicità ingegneristica. “DeepSeek ha puntato a ottenere risposte precise piuttosto che a dettagliare ogni passaggio logico, riducendo in modo significativo il tempo di calcolo e mantenendo al contempo un alto livello di efficacia”, spiega.

DeepSeek ha anche rilasciato sei versioni più piccole di R1, abbastanza piccole da poter essere eseguite localmente sui computer portatili. DeepSeek ha replicato in larga misura o1-mini e lo ha reso open source”, ha twittato il CEO di Perplexity Aravind Srinivas. DeepSeek non ha risposto alla richiesta di commenti del MIT Technology Review.

Nonostante il fermento intorno a R1, DeepSeek rimane relativamente sconosciuta. Con sede a Hangzhou, in Cina, è stata fondata nel luglio 2023 da Liang Wenfeng, un ex studente dell’Università di Zhejiang con una formazione in ingegneria informatica ed elettronica. È stata incubata da High-Flyer, un hedge fund che Liang ha fondato nel 2015. Come Sam Altman di OpenAI, Liang mira a costruire un’intelligenza artificiale generale (AGI), una forma di IA in grado di eguagliare o addirittura battere gli esseri umani in una serie di compiti.

La formazione di modelli linguistici di grandi dimensioni (LLM) richiede un team di ricercatori altamente qualificati e una notevole potenza di calcolo. In una recente intervista rilasciata al media cinese LatePost, Kai-Fu Lee, imprenditore veterano ed ex responsabile di Google China, ha dichiarato che solo i “giocatori di prima fila” sono soliti impegnarsi nella costruzione di modelli di base come ChatGPT, poiché si tratta di un’attività che richiede molte risorse. La situazione è ulteriormente complicata dai controlli statunitensi sulle esportazioni di semiconduttori avanzati. La decisione di High-Flyer di avventurarsi nell’IA è però direttamente collegata a questi vincoli. Molto prima delle sanzioni previste, Liang ha acquistato una notevole scorta di chip Nvidia A100, un tipo di chip ora vietato all’esportazione in Cina. Il media cinese 36Kr stima che l’azienda abbia più di 10.000 unità in magazzino, ma Dylan Patel, fondatore della società di ricerca sull’intelligenza artificiale SemiAnalysis, ritiene che ne abbia almeno 50.000. Il riconoscimento del potenziale di queste scorte per l’addestramento dell’IA ha spinto Liang a fondare DeepSeek, che ha potuto utilizzarle in combinazione con i chip a più bassa potenza per sviluppare i suoi modelli.

Giganti tecnologici come Alibaba e ByteDance, oltre a una manciata di startup con investitori molto facoltosi, dominano lo spazio cinese dell’intelligenza artificiale, rendendo difficile la competizione per le piccole e medie imprese. Una società come DeepSeek, che non ha intenzione di raccogliere fondi, è rara.

Zihan Wang, ex dipendente di DeepSeek, ha raccontato al MIT Technology Review di aver avuto accesso ad abbondanti risorse di calcolo e di aver avuto libertà di sperimentare quando lavorava in DeepSeek, “un lusso che pochi neolaureati avrebbero avuto in qualsiasi azienda”.

In un’intervista rilasciata al media cinese 36Kr nel luglio 2024, Liang ha dichiarato che un’ulteriore sfida che le aziende cinesi devono affrontare, oltre alle sanzioni sui chip, è che le loro tecniche di progettazione dell’intelligenza artificiale tendono a essere meno efficienti. “Noi [la maggior parte delle aziende cinesi] dobbiamo consumare il doppio della potenza di calcolo per ottenere gli stessi risultati. Se a ciò si aggiungono le lacune nell’efficienza dei dati, ciò potrebbe significare che abbiamo bisogno di una potenza di calcolo fino a quattro volte superiore. Il nostro obiettivo è quello di colmare continuamente queste lacune”, ha dichiarato.

Ma DeepSeek ha trovato il modo di ridurre l’utilizzo della memoria e accelerare i calcoli senza sacrificare in modo significativo la precisione. “Il team ama trasformare una sfida hardware in un’opportunità di innovazione”, afferma Wang.

Liang stesso rimane profondamente coinvolto nel processo di ricerca di DeepSeek, conducendo esperimenti insieme al suo team. “L’intero team condivide una cultura collaborativa e una dedizione alla ricerca dura”, afferma Wang.

Oltre a dare priorità all’efficienza, le aziende cinesi stanno abbracciando sempre più i principi dell’open-source. Alibaba Cloud ha rilasciato oltre 100 nuovi modelli di intelligenza artificiale open-source, che supportano 29 lingue e si rivolgono a varie applicazioni, tra cui la codifica e la matematica. Allo stesso modo, startup come Minimax e 01.AI hanno reso disponibili i loro modelli.

Secondo un libro bianco pubblicato l’anno scorso dalla China Academy of Information and Communications Technology, un istituto di ricerca affiliato allo Stato, il numero di modelli linguistici di grandi dimensioni di IA in tutto il mondo ha raggiunto 1.328, il 36% dei quali proviene dalla Cina. La Cina si colloca così al secondo posto tra le aziende che contribuiscono all’IA, dopo gli Stati Uniti.

“Questa generazione di giovani ricercatori cinesi si identifica fortemente con la cultura dell’open-source perché ne trae molti vantaggi”, afferma Thomas Qitong Cao, professore assistente di politica tecnologica alla Tufts University.

“Il controllo delle esportazioni da parte degli Stati Uniti ha sostanzialmente messo le aziende cinesi in un angolo, costringendole a essere molto più efficienti con le loro limitate risorse di calcolo”, afferma Matt Sheehan, ricercatore di IA presso il Carnegie Endowment for International Peace. “Probabilmente in futuro assisteremo a molti consolidamenti legati alla mancanza di calcolo”.

Forse è già iniziato a succedere. Due settimane fa, Alibaba Cloud ha annunciato di aver stretto una partnership con la startup 01.AI, fondata da Kai-Fu Lee e con sede a Pechino, per unire i team di ricerca e creare un “laboratorio industriale di grandi modelli”.

“È efficiente dal punto di vista energetico ed è naturale che emerga una sorta di divisione del lavoro nel settore dell’IA”, afferma Cao, professore della Tufts. “La rapida evoluzione dell’IA richiede agilità alle aziende cinesi per sopravvivere”.