I grandi modelli linguistici hanno liberato la potenza dell’IA. Ora è giunto il momento che AI più efficienti prendano il sopravvento.
CHI
Istituto Allen per l’intelligenza artificiale, Anthropic, Google, Meta, Microsoft, OpenAI
QUANDO
Ora
Non fatevi illusioni: le dimensioni contano nel mondo dell’intelligenza artificiale. Quando OpenAI ha lanciato GPT-3 nel 2020, si trattava del modello linguistico più grande mai costruito. L’azienda ha dimostrato che il sovradimensionamento di questo tipo di modello era sufficiente a far schizzare le prestazioni alle stelle. Questo ha dato il via a un boom tecnologico che da allora è stato sostenuto da modelli più grandi. Come ha detto Noam Brown, ricercatore di OpenAI, al TEDAI di San Francisco in ottobre, “L’incredibile progresso dell’IA negli ultimi cinque anni può essere riassunto in una parola: scala”.
Ma mentre i guadagni marginali per i nuovi modelli di fascia alta si riducono, i ricercatori stanno scoprendo come fare di più con meno. Per alcuni compiti, i modelli più piccoli, addestrati su serie di dati più mirate, possono ora funzionare altrettanto bene di quelli più grandi, se non meglio. Questo è un vantaggio per le aziende che desiderano utilizzare l’IA in pochi modi specifici. Non è necessario avere l’intera Internet nel proprio modello se si fa sempre lo stesso tipo di richiesta.
La maggior parte delle grandi aziende tecnologiche vanta oggi versioni di dimensioni divertenti dei propri modelli di punta a questo scopo: OpenAI offre GPT-4o e GPT-4o mini; Google DeepMind ha Gemini Ultra e Gemini Nano; e Claude 3 di Anthropic è disponibile in tre versioni: Opus di grandi dimensioni, Sonnet di medie dimensioni e Haiku di piccole dimensioni. Microsoft sta sperimentando una serie di piccoli modelli di linguaggio chiamati Phi.
Un numero crescente di aziende più piccole offre anche modelli di dimensioni ridotte. La startup di AI Writer sostiene che il suo ultimo modello linguistico eguaglia le prestazioni dei più grandi modelli di alto livello su molte metriche chiave, nonostante in alcuni casi abbia solo un ventesimo dei parametri (i valori che vengono calcolati durante l’addestramento e che determinano il comportamento di un modello).
Esplora l’elenco completo delle 10 Tecnologie Emergenti 2025.
I modelli più piccoli sono più efficienti e quindi più veloci da allenare e gestire. È una buona notizia per tutti coloro che desiderano una rampa di lancio più economica. E potrebbe essere positiva anche per il clima: poiché i modelli più piccoli lavorano con una frazione dell’energia informatica richiesta dai loro cugini giganti, bruciano meno energia.
Questi piccoli modelli sono anche in grado di viaggiare bene: possono funzionare direttamente nelle nostre tasche, senza bisogno di inviare richieste al cloud. Il piccolo è la prossima grande cosa.