
I nuovi dati dimostrano che, se a tutto ciò si aggiunge il ragionamento della “catena di pensiero” ad alta intensità energetica del modello, la promessa di efficienza diventa oscura.
Nella settimana in cui un modello di intelligenza artificiale cinese chiamato DeepSeek è diventato famoso, un numero vertiginoso di voci ha preso piede, con vari gradi di accuratezza: che il modello sta raccogliendo i vostri dati personali (forse); che metterà in crisi l’intelligenza artificiale come la conosciamo (troppo presto per dirlo, ma leggete l’articolo del mio collega Will su questo); e forse, soprattutto, che il nuovo approccio più efficiente di DeepSeek significa che l’intelligenza artificiale potrebbe non aver bisogno di ingurgitare le enormi quantità di energia che utilizza attualmente.
Quest’ultima nozione è fuorviante e i nuovi dati condivisi con MIT Technology Review dimostrano perché. Questi primi dati, basati sulle prestazioni di uno dei modelli più piccoli di DeepSeek su un numero limitato di domande, suggeriscono che potrebbe essere più dispendioso in termini di energia quando genera le risposte rispetto al modello di dimensioni equivalenti di Meta. Il problema potrebbe essere che l’energia che risparmia nell’addestramento è compensata dalle sue tecniche più intensive per rispondere alle domande e dalle lunghe risposte che produce.
Se si aggiunge che altre aziende tecnologiche, ispirate dall’approccio di DeepSeek, potrebbero iniziare a costruire modelli di ragionamento simili a basso costo, le prospettive per il consumo di energia appaiono già molto meno rosee.
Il ciclo di vita di qualsiasi modello di intelligenza artificiale prevede due fasi: l’addestramento e l’inferenza. L’addestramento è il processo, spesso lungo mesi, in cui il modello impara dai dati. Il modello è quindi pronto per l’inferenza, che avviene ogni volta che qualcuno al mondo gli chiede qualcosa. Entrambe le fasi si svolgono solitamente nei centri dati, dove è necessaria molta energia per far funzionare i chip e raffreddare i server.
Per quanto riguarda l’addestramento del modello R1, il team di DeepSeek ha migliorato la cosiddetta tecnica della “miscela di esperti”, in cui solo una parte dei miliardi di parametri di un modello – le “manopole” che un modello utilizza per ottenere risposte migliori – viene attivata in un determinato momento durante l’addestramento. In particolare, hanno migliorato l’apprendimento per rinforzo, in cui i risultati di un modello vengono valutati e quindi utilizzati per migliorarlo. Spesso questo compito viene svolto da annotatori umani, ma il team di DeepSeek è riuscito ad automatizzarlo.
L’introduzione di un metodo per rendere più efficiente l’addestramento potrebbe far pensare che le aziende di IA utilizzeranno meno energia per portare i loro modelli di IA a un determinato standard. In realtà, però, non è così che funziona.
“Poiché il valore di un sistema più intelligente è così alto”, ha scritto Dario Amodei, cofondatore di Anthropic, sul suo blog, “le aziende spendono di più, non di meno, per la formazione dei modelli”. Se le aziende ottengono di più per i loro soldi, troveranno conveniente spendere di più e quindi utilizzare più energia. “I guadagni in termini di efficienza dei costi finiscono per essere interamente dedicati alla formazione di modelli più intelligenti, limitati solo dalle risorse finanziarie dell’azienda”, ha scritto. È un esempio del cosiddetto paradosso di Jevons.
Ma questo è vero per quanto riguarda l’addestramento, da quando esiste la corsa all’intelligenza artificiale. L’energia richiesta per l’inferenza è il punto in cui le cose si fanno più interessanti.
DeepSeek è stato progettato come modello di ragionamento, il che significa che è destinato a svolgere bene compiti come la logica, la ricerca di schemi, la matematica e altri compiti con cui i tipici modelli di intelligenza artificiale generativa hanno difficoltà. I modelli di ragionamento fanno questo utilizzando una cosa chiamata “catena di pensiero”. In questo modo, il modello di intelligenza artificiale può suddividere il suo compito in parti e lavorarle in un ordine logico prima di giungere alla conclusione.
Lo si può vedere con DeepSeek. Se si chiede se è giusto mentire per proteggere i sentimenti di qualcuno, il modello affronta la questione prima con l’utilitarismo, soppesando il bene immediato rispetto al potenziale danno futuro. Poi considera l’etica kantiana, che propone di agire secondo massime che potrebbero essere leggi universali. Prende in considerazione queste e altre sfumature prima di condividere le sue conclusioni. (Se siete curiosi, scopre che la menzogna è “generalmente accettabile in situazioni in cui la gentilezza e la prevenzione del danno sono di primaria importanza, ma con sfumature e senza una soluzione universale”).
I modelli a catena di pensiero tendono a ottenere risultati migliori in alcuni benchmark come MMLU, che testa sia la conoscenza che la risoluzione di problemi in 57 materie. Ma, come sta diventando chiaro con DeepSeek, richiedono anche molta più energia per arrivare alle risposte. Abbiamo alcuni primi indizi su quanto sia maggiore.
Scott Chamberlin ha trascorso anni in Microsoft, e successivamente in Intel, costruendo strumenti per aiutare a rivelare i costi ambientali di alcune attività digitali. Chamberlin ha effettuato alcuni test iniziali per verificare la quantità di energia consumata da una GPU quando DeepSeek arriva alla sua risposta. L‘esperimento è accompagnato da una serie di avvertenze: ha testato solo una versione di medie dimensioni di DeepSeek R1, utilizzando solo un numero ridotto di richieste. È anche difficile fare confronti con altri modelli di ragionamento.
DeepSeek è “davvero il primo modello di ragionamento abbastanza popolare a cui tutti noi abbiamo accesso”, dice. Il modello o1 di OpenAI è il suo concorrente più vicino, ma l’azienda non lo rende disponibile per i test. L’autore lo ha invece testato contro un modello di Meta con lo stesso numero di parametri: 70 miliardi.
La domanda che chiedeva se fosse giusto mentire ha generato una risposta di 1.000 parole da parte del modello DeepSeek, che ha impiegato 17.800 joule per generare, circa quanto serve per trasmettere un video di 10 minuti su YouTube. Si tratta di circa il 41% di energia in più rispetto a quella utilizzata dal modello di Meta per rispondere al quesito. Complessivamente, quando è stato testato su 40 richieste, DeepSeek è risultato avere un’efficienza energetica simile a quella del modello Meta, ma DeepSeek tendeva a generare risposte molto più lunghe e quindi è risultato utilizzare l’87% di energia in più.
Qual è il confronto con i modelli che utilizzano la vecchia IA generativa e non il ragionamento a catena? I test condotti in ottobre da un team dell’Università del Michigan hanno rilevato che la versione da 70 miliardi di parametri di Llama 3.1 di Meta ha una media di soli 512 joule per risposta.
Né DeepSeek né Meta hanno risposto alle richieste di commento.
Ancora una volta: le incertezze abbondano. Si tratta di modelli diversi, per scopi diversi, e non è stato fatto uno studio scientificamente valido su quanta energia utilizzi DeepSeek rispetto ai concorrenti. Ma è chiaro, basandosi solo sull’architettura dei modelli, che i modelli a catena di pensiero utilizzano molta più energia per arrivare a risposte più affidabili.
Sasha Luccioni, ricercatore di intelligenza artificiale e responsabile del clima presso Hugging Face, teme che l’entusiasmo per DeepSeek possa portare a una corsa all’inserimento di questo approccio in tutto, anche dove non è necessario.
“Se iniziassimo ad adottare questo paradigma su larga scala, il consumo di energia per l’inferenza salirebbe alle stelle”, afferma l’esperta. “Se tutti i modelli che vengono rilasciati sono più intensivi dal punto di vista del calcolo e diventano catene di pensiero, allora si annulla completamente qualsiasi guadagno di efficienza”.
L’IA è già stata qui. Prima del lancio di ChatGPT nel 2022, il nome del gioco nell’IA era estrattivo – in pratica trovare informazioni in un sacco di testo o categorizzare immagini. Ma nel 2022 l’attenzione si è spostata dall’IA estrattiva all’IA generativa, che si basa sull’elaborazione di previsioni sempre migliori. Questo richiede più energia.
“Questo è il primo cambiamento di paradigma”, afferma Luccioni. Secondo la sua ricerca, questo cambiamento ha portato a utilizzare ordini di grandezza di energia in più per svolgere compiti simili. Se il fervore attorno a DeepSeek continuerà, secondo Luccioni, le aziende potrebbero essere spinte a inserire i suoi modelli in stile catena di pensiero in ogni cosa, così come l’IA generativa è stata aggiunta a tutto, dalla ricerca di Google alle app di messaggistica.
Sembra che ci stiamo dirigendo verso una maggiore diffusione del ragionamento a catena: OpenAI ha annunciato il 31 gennaio che avrebbe ampliato l’accesso al proprio modello di ragionamento, o3. Ma non sapremo di più sui costi energetici finché DeepSeek e altri modelli simili non saranno studiati meglio.
“Dipenderà dalla convenienza economica del compromesso per l’azienda in questione”, afferma Nathan Benaich, fondatore e socio accomandatario di Air Street Capital. “I costi energetici dovrebbero essere fuori scala per poter giocare un ruolo significativo nel processo decisionale”.