
Mentre il clamore iniziale si affievolisce, ecco i probabili impatti a lungo termine.
Il lancio di un singolo nuovo modello di intelligenza artificiale di solito non fa molto scalpore al di fuori dei circoli tecnologici, né di solito spaventa gli investitori a tal punto da distruggere 1.000 miliardi di dollari nel mercato azionario. Ora, a un paio di settimane dal grande momento di DeepSeek, la polvere si è un po’ depositata. Il ciclo delle notizie si è spostato su temi più tranquilli, come lo smantellamento di programmi federali statunitensi di lunga data, l’eliminazione di ricerche e set di dati per conformarsi ai recenti ordini esecutivi e le possibili conseguenze dei nuovi dazi del Presidente Trump su Canada, Messico e Cina.
Nell’ambito dell’IA, tuttavia, quale impatto potrebbe avere DeepSeek nel lungo periodo? Ecco tre semi piantati da DeepSeek che cresceranno anche quando il clamore iniziale svanirà.
In primo luogo, sta imponendo un dibattito sulla quantità di energia che i modelli di intelligenza artificiale dovrebbero essere autorizzati a consumare per cercare risposte migliori.
Forse avete sentito dire (anche da me) che DeepSeek è efficiente dal punto di vista energetico. Questo è vero per la fase di addestramento, ma per l’inferenza, cioè quando si chiede al modello qualcosa e lui produce una risposta, è complicato. Utilizza la tecnica della catena di pensiero, che suddivide domande complesse – come se sia giusto mentire per proteggere i sentimenti di qualcuno – in parti e poi risponde logicamente a ciascuna di esse. Questo metodo consente a modelli come DeepSeek di ottenere risultati migliori in matematica, logica, codifica e altro ancora.
Il problema, almeno per alcuni, è che questo modo di “pensare” consuma molta più elettricità dell’IA a cui siamo abituati. Sebbene l’IA sia attualmente responsabile di una piccola fetta delle emissioni globali totali, sta crescendo il sostegno politico per aumentare radicalmente la quantità di energia destinata all’IA. Se l’intensità energetica dei modelli a catena di pensiero valga o meno la pena, dipende ovviamente dall’uso che ne facciamo. La ricerca scientifica per curare le peggiori malattie del mondo sembra meritevole. Generare intelligenza artificiale? Meno.
Alcuni esperti temono che l’imponenza di DeepSeek porti le aziende a incorporarlo in molte app e dispositivi e che gli utenti lo utilizzino per scenari che non lo richiedono. (Chiedere a DeepSeek di spiegare la teoria della relatività di Einstein, ad esempio, è uno spreco, poiché non richiede passaggi di ragionamento logico e qualsiasi modello di chat AI può farlo con meno tempo ed energia). Per saperne di più, leggete qui.
In secondo luogo, DeepSeek ha compiuto alcuni progressi creativi nel modo in cui si addestra, ed è probabile che altre aziende seguano il suo esempio.
I modelli avanzati di intelligenza artificiale non si limitano ad apprendere da un sacco di testo, immagini e video. Si affidano in larga misura agli esseri umani per ripulire i dati, annotarli e aiutare l’IA a scegliere risposte migliori, spesso con salari miseri.
Un modo per coinvolgere i lavoratori umani è una tecnica chiamata apprendimento per rinforzo con feedback umano. Il modello genera una risposta, i valutatori umani assegnano un punteggio a quella risposta e questi punteggi vengono utilizzati per migliorare il modello. OpenAI è stato il pioniere di questa tecnica, che ora è ampiamente utilizzata dall’industria.
Come riporta il mio collega Will Douglas Heaven, DeepSeek ha fatto qualcosa di diverso: ha trovato un modo per automatizzare questo processo di valutazione e di apprendimento del rinforzo. “Saltare o ridurre il feedback umano è una cosa importante”, gli ha detto Itamar Friedman, ex direttore della ricerca di Alibaba e ora cofondatore e CEO di Qodo, una startup di codifica dell’intelligenza artificiale con sede in Israele. “Si possono addestrare quasi completamente i modelli senza che gli esseri umani debbano svolgere il lavoro”.
Funziona particolarmente bene per materie come la matematica e il coding, ma non altrettanto per altre, per cui ci si affida ancora ai lavoratori. Tuttavia, DeepSeek ha fatto un ulteriore passo avanti e ha utilizzato tecniche che ricordano il modo in cui Google DeepMind ha addestrato il suo modello di intelligenza artificiale nel 2016 per eccellere nel gioco Go, facendogli essenzialmente tracciare le possibili mosse e valutarne gli esiti. Questi passi avanti, soprattutto perché ampiamente delineati nella documentazione open-source di DeepSeek, saranno sicuramente seguiti da altre aziende. Per saperne di più, leggete qui Will Douglas Heaven.
In terzo luogo, il suo successo alimenterà un dibattito chiave: si può spingere affinché la ricerca sull’IA sia aperta a tutti e allo stesso tempo spingere per la competitività degli Stati Uniti nei confronti della Cina?
Molto prima che DeepSeek rilasciasse gratuitamente il suo modello, alcune aziende di IA sostenevano che il settore dovesse essere un libro aperto. Se i ricercatori aderissero a determinati principi open-source e mostrassero il loro lavoro, la corsa globale allo sviluppo di IA superintelligenti potrebbe essere trattata come uno sforzo scientifico per il bene pubblico, e il potere di un singolo attore sarebbe controllato dagli altri partecipanti.
È una bella idea. Meta ha ampiamente sostenuto questa visione e il venture capitalist Marc Andreessen ha affermato che gli approcci open-source possono essere più efficaci per mantenere l’IA sicura rispetto alla regolamentazione governativa. OpenAI si è schierata sul fronte opposto, mantenendo i suoi modelli chiusi in base alla convinzione di poterli tenere lontani dalle mani dei malintenzionati.
DeepSeek ha reso queste narrazioni un po’ più confuse. Sam Altman di OpenAI ha dichiarato in un Reddit AMA di venerdì scorso: “Siamo stati dalla parte sbagliata della storia e dobbiamo trovare una strategia open-source diversa”, il che è sorprendente se si considera la posizione assunta in passato da OpenAI. Altri, tra cui il Presidente Trump, hanno ribadito la necessità di rendere gli Stati Uniti più competitivi nel campo dell’IA, considerando il successo di DeepSeek come un campanello d’allarme. Dario Amodei, fondatore di Anthropic, ha detto che il successo è un promemoria per ricordare che gli Stati Uniti hanno bisogno di un controllo rigoroso su quali tipi di chip avanzati vengono destinati alla Cina nei prossimi anni, e alcuni legislatori stanno insistendo sullo stesso punto.
I prossimi mesi, e i futuri lanci di DeepSeek e di altri, metteranno alla prova ognuno di questi argomenti.