GOOGLE

Gemini di Google DeepMind sembra sorprendente, ma potrebbe essere il picco dell’hype per l’AI

Supera il GPT-4 in quasi tutti gli aspetti, ma solo di poco. Ne è valsa la pena?

Sono mesi che si parla di Gemini, la tanto vociferata risposta di Google DeepMind a GPT-4 di OpenAI. Oggi l’azienda ha finalmente rivelato ciò a cui ha lavorato in segreto per tutto questo tempo. Il clamore era giustificato? Sì e no.

Gemini è il più grande lancio di Google nel campo dell’intelligenza artificiale, il suo tentativo di sfidare i concorrenti OpenAI e Microsoft nella corsa alla supremazia dell’intelligenza artificiale. Non c’è dubbio che il modello venga presentato come il migliore della categoria per un’ampia gamma di funzionalità, una “macchina tuttofare”, come dice un osservatore.

“Il modello è innatamente più capace”, ha dichiarato Sundar Pichai, CEO di Google e della sua società madre Alphabet, a MIT Technology Review. “È una piattaforma. L’intelligenza artificiale è un cambiamento profondo della piattaforma, più grande del web o della telefonia mobile. E quindi rappresenta un grande passo per noi”.

Si tratta di un grande passo per Google, ma non necessariamente di un passo da gigante per il settore nel suo complesso. Google DeepMind sostiene che Gemini supera GPT-4 in 30 su 32 misure standard di prestazioni. Eppure i margini tra i due sono sottili. Google DeepMind ha riunito le migliori capacità attuali dell’intelligenza artificiale in un unico potente pacchetto. A giudicare dalle dimostrazioni, fa molte cose molto bene, ma poche cose che non abbiamo mai visto prima. Con tutto il clamore che c’è per la prossima grande rivoluzione, Gemini potrebbe essere il segno che abbiamo raggiunto il picco dell’hype per l’IA. Almeno per ora.

Chirag Shah, professore dell’Università di Washington specializzato nella ricerca online, paragona il lancio di Gemini alla presentazione di un nuovo iPhone da parte di Apple ogni anno. “Forse siamo arrivati a una soglia diversa, in cui questo non ci impressiona più di tanto perché abbiamo già visto molto”, afferma.

Come GPT-4, Gemini è multimodale, cioè è addestrato a gestire diversi tipi di input: testo, immagini, audio. Può combinare questi diversi formati per rispondere a domande su qualsiasi argomento, dalle faccende domestiche alla matematica universitaria, all’economia.

In una dimostrazione per i giornalisti, ieri, Google ha mostrato la capacità di Gemini di prendere una schermata esistente di un grafico, analizzare centinaia di pagine di ricerca con nuovi dati e quindi aggiornare il grafico con le nuove informazioni. In un altro esempio, a Gemini viene mostrata l’immagine di un’omelette che cuoce in una padella e viene chiesto (usando il parlato, non il testo) se l’omelette è già cotta. Gemini risponde: “Non è pronta perché le uova sono ancora sode”.

La maggior parte delle persone, tuttavia, dovrà aspettare per avere un’esperienza completa. La versione lanciata oggi è un back end di Bard, il chatbot di ricerca testuale di Google, che secondo l’azienda avrà capacità di ragionamento, pianificazione e comprensione più avanzate. Il rilascio completo di Gemini sarà scaglionato nei prossimi mesi. Il nuovo Bard potenziato da Gemini sarà inizialmente disponibile in inglese in oltre 170 Paesi, esclusi l’UE e il Regno Unito. Questo per consentire all’azienda di “impegnarsi” con le autorità di regolamentazione locali, ha dichiarato Sissie Hsiao, vicepresidente di Google responsabile di Bard.

Gemini è disponibile anche in tre dimensioni: Ultra, Pro e Nano. Ultra è la versione full-powered; Pro e Nano sono pensate per applicazioni che funzionano con risorse di calcolo più limitate. Nano è progettato per funzionare su dispositivi come i nuovi telefoni Pixel di Google. Gli sviluppatori e le aziende potranno accedere a Gemini Pro a partire dal 13 dicembre. Gemini Ultra, il modello più potente, sarà disponibile “all’inizio del prossimo anno” dopo “approfonditi controlli di fiducia e sicurezza”, hanno dichiarato i dirigenti di Google durante una conferenza stampa.

“La considero l’era Gemini dei modelli”, ci ha detto Pichai. “Questo è il modo in cui Google DeepMind costruirà e farà progressi nel campo dell’IA. Quindi rappresenterà sempre la frontiera del progresso della tecnologia AI”.

Più grande, migliore, più veloce, più forte?

Il modello più potente di OpenAI, GPT-4, è considerato il gold standard del settore. Mentre Google si è vantata del fatto che Gemini supera il modello precedente di OpenAI, GPT 3.5, i dirigenti dell’azienda hanno evitato le domande su quanto il modello superi GPT-4.

Ma l’azienda sottolinea un benchmark in particolare, chiamato MMLU (massive multitask language understanding). Si tratta di una serie di test progettati per misurare le prestazioni dei modelli su compiti che coinvolgono testo e immagini, tra cui la comprensione della lettura, la matematica universitaria e i quiz a scelta multipla di fisica, economia e scienze sociali. Nelle domande di solo testo, Gemini ha ottenuto un punteggio del 90%, mentre gli esperti umani hanno ottenuto circa l’89%, ha dichiarato Pichai. Il GPT-4 ottiene l’86% su questo tipo di domande. Nelle domande multimodali, Gemini ottiene un punteggio del 59%, mentre GPT-4 del 57%. “È il primo modello a superare questa soglia”, afferma Pichai.

Le prestazioni di Gemini rispetto ai set di dati di riferimento sono davvero impressionanti, afferma Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute del New Mexico.

“È chiaro che Gemini è un sistema di intelligenza artificiale molto sofisticato”, afferma Mitchell. Ma “non mi sembra ovvio che Gemini sia sostanzialmente più capace di GPT-4”, aggiunge.

Sebbene il modello abbia ottenuto buoni punteggi di benchmark, è difficile sapere come interpretare questi numeri dato che non sappiamo cosa c’è nei dati di addestramento, afferma Percy Liang, direttore del Centro di ricerca sui modelli di fondazione di Stanford.

Mitchell nota anche che Gemini si comporta molto meglio con i benchmark di linguaggio e codice che con le immagini e i video. “I modelli multimodali hanno ancora molta strada da fare per essere generalmente e solidamente utili per molti compiti”, afferma Mitchell.

Utilizzando il feedback dei tester umani, Google DeepMind ha addestrato Gemini a essere più accurato nei fatti, a dare un’attribuzione quando gli viene chiesto di farlo e a non rispondere alle domande senza senso. L’azienda sostiene che ciò attenua il problema delle “allucinazioni”. Ma senza una revisione radicale della tecnologia di base, i grandi modelli linguistici continueranno a inventare.

Gli esperti sostengono che non è chiaro se i benchmark utilizzati da Google per misurare le prestazioni di Gemini offrano una visione così approfondita e, in assenza di trasparenza, è difficile verificare le affermazioni di Google.

“Google pubblicizza Gemini come una macchina per tutto, un modello generico che può essere utilizzato in molti modi diversi”, afferma Emily Bender, docente di linguistica computazionale all’Università di Washington. Ma l’azienda sta usando dei benchmark ristretti per valutare i modelli che si aspetta vengano usati per questi scopi diversi. “Ciò significa che non è possibile valutarli in modo approfondito”, afferma la professoressa. 

In definitiva, per l’utente medio, il miglioramento incrementale rispetto ai modelli concorrenti potrebbe non fare molta differenza, sostiene Shah. “È più una questione di convenienza, di riconoscimento del marchio, di integrazione esistente, che di persone che pensano davvero ‘Oh, questo è meglio'”, afferma.

Un lungo e lento accumulo

Gemini è un progetto che si protrae da tempo. Nell’aprile del 2023, Google ha annunciato la fusione della sua unità di ricerca sull’intelligenza artificiale Google Brain con DeepMind, il laboratorio di ricerca sull’intelligenza artificiale di Alphabet con sede a Londra. Google ha quindi avuto tutto l’anno per sviluppare la sua risposta al modello linguistico più avanzato di OpenAI, GPT-4, che ha debuttato a marzo ed è la spina dorsale della versione a pagamento di ChatGPT.

Google ha subito forti pressioni per dimostrare agli investitori di essere in grado di eguagliare e superare i concorrenti nel campo dell’intelligenza artificiale. Sebbene l’azienda sviluppi e utilizzi da anni potenti modelli di IA, ha esitato a lanciare strumenti con cui il pubblico possa giocare per timore di danni alla reputazione e problemi di sicurezza.

“Google è stata molto cauta nel rilasciare queste cose al pubblico”, ha dichiarato Geoffrey Hinton a MIT Technology Review in aprile, quando ha lasciato l’azienda. “Ci sono troppe cose negative che potrebbero accadere e Google non voleva rovinare la sua reputazione”. Di fronte a una tecnologia che sembrava inaffidabile o non commercializzabile, Google ha giocato d’anticipo, fino a quando il rischio maggiore è diventato quello di perdersi.

Google ha imparato a sue spese come il lancio di prodotti difettosi possa ritorcersi contro. Quando a febbraio ha presentato il suo concorrente ChatGPT Bard, gli scienziati si sono subito accorti di un errore di fatto nella pubblicità dell’azienda stessa per il chatbot, un incidente che ha poi fatto crollare il prezzo delle sue azioni di 100 miliardi di dollari.

A maggio Google ha annunciato l’introduzione dell’intelligenza artificiale generativa nella maggior parte dei suoi prodotti, dalle e-mail ai software di produttività. Ma i risultati non hanno impressionato i critici: il chatbot faceva riferimenti a e-mail che non esistevano, per esempio. 

Si tratta di un problema costante con i modelli linguistici di grandi dimensioni. Sebbene siano eccellenti nel generare testi che sembrano scritti da un essere umano, i sistemi di intelligenza artificiale generativa inventano regolarmente. E questo non è l’unico problema. Sono anche facili da hackerare e pieni di pregiudizi. Inoltre, il loro utilizzo è altamente inquinante.

Google non ha risolto né questi problemi né quello delle allucinazioni. La soluzione a quest’ultimo problema è uno strumento che consente alle persone di utilizzare la ricerca di Google per verificare le risposte del chatbot, ma che si basa sull’accuratezza dei risultati della ricerca online stessa.

Gemini potrebbe essere l’apice di questa ondata di IA generativa. Ma non è chiaro quale sarà il prossimo passo dell’IA costruita su modelli linguistici di grandi dimensioni. Alcuni ricercatori ritengono che questo potrebbe essere un plateau piuttosto che la base del prossimo picco.

Pichai non si scoraggia. “Guardando al futuro, vediamo molto spazio”, afferma. “Penso che la multimodalità sarà un fattore importante. Man mano che insegneremo a questi modelli a ragionare di più, ci saranno progressi sempre più grandi. Le scoperte più profonde devono ancora arrivare”.

“Quando considero la totalità di tutto questo, mi sembra davvero di essere all’inizio”.

Mat Honan ha contribuito all’articolo.

Related Posts
Total
0
Share