Google ha appena lanciato una tonnellata di nuovi prodotti, tra cui Gemini 2.0, che potrebbe alimentare un nuovo mondo di agenti. E noi l’abbiamo visto in anteprima.
Google DeepMind ha annunciato un’impressionante serie di nuovi prodotti e prototipi che potrebbero permetterle di riconquistare la leadership nella corsa per trasformare l’intelligenza artificiale generativa in un fenomeno di massa.
Il primo posto va a Gemini 2.0, l’ultima iterazione della famiglia di di modelli linguistici di Google DeepMind, ora ridisegnata in base alla capacità di controllare gli agenti, e una nuova versione di Project Astra, l’app sperimentale per la gestione di tutto che l’azienda ha presentato al Google I/O di maggio.
La scorsa settimana MIT Technology Review ha potuto provare Astra in una demo dal vivo a porte chiuse. È stata un’esperienza sorprendente, ma c’è un abisso tra la promozione lucida e la demo dal vivo.
Astra utilizza il framework di agenti integrato in Gemini 2.0 per rispondere a domande e svolgere compiti tramite testo, voce, immagini e video, richiamando le applicazioni Google esistenti come Search, Maps e Lens quando necessario. “Si tratta della fusione di alcuni dei più potenti sistemi di recupero delle informazioni del nostro tempo”, afferma Bibo Xu, product manager di Astra.
A Gemini 2.0 e Astra si aggiungono Mariner, un nuovo agente costruito sulla base di Gemini che può navigare sul web per voi; Jules, un nuovo assistente di codifica alimentato da Gemini; e Gemini for Games, un assistente sperimentale con cui potete chattare e chiedere consigli mentre giocate ai videogiochi.
(E non dimentichiamo che nell’ultima settimana Google DeepMind ha annunciato anche Veo, un nuovo modello di generazione di video; Imagen 3, una nuova versione del suo modello di generazione di immagini; e Willow, un nuovo tipo di chip per computer quantistici. Un’ottima notizia. Nel frattempo, l’amministratore delegato Demis Hassabis era ieri in Svezia per ricevere il premio Nobel).
Google DeepMind sostiene che Gemini 2.0 è due volte più veloce della versione precedente, Gemini 1.5, e la supera in una serie di benchmark standard, tra cui MMLU-Pro, un’ampia serie di domande a scelta multipla progettate per testare le capacità di modelli linguistici di grandi dimensioni in una serie di argomenti, dalla matematica e fisica alla salute, alla psicologia e alla filosofia.
Ma i margini tra i modelli di fascia alta come Gemini 2.0 e quelli di laboratori rivali come OpenAI e Anthropic sono ormai sottili. Al giorno d’oggi, i progressi dei modelli linguistici di grandi dimensioni non riguardano tanto la loro qualità quanto la possibilità di utilizzarli.
Ed è qui che entrano in gioco gli agenti.
Il progetto Astra in prima persona
La scorsa settimana sono stato condotto attraverso una porta non contrassegnata al piano superiore di un edificio nel quartiere londinese di King’s Cross in una stanza con forti vibrazioni da progetto segreto. La parola “ASTRA” era impressa a lettere giganti su una parete. Il cane di Xu, Charlie, di fatto la mascotte del progetto, si aggirava tra le scrivanie dove ricercatori e ingegneri erano impegnati a costruire un prodotto su cui Google sta scommettendo il suo futuro.
“Per mia madre, il concetto è che stiamo costruendo un’intelligenza artificiale che ha occhi, orecchie e voce. Può essere ovunque con te e può aiutarti in qualsiasi cosa tu stia facendo”, dice Greg Wayne, co-capo del team Astra. “Non siamo ancora arrivati a questo punto, ma la visione è questa”.
Il termine ufficiale per ciò che Xu, Wayne e i loro colleghi stanno costruendo è “assistente universale”. Stanno ancora cercando di capire cosa significhi esattamente.
A un’estremità della sala Astra c’erano due palcoscenici che il team utilizza per le dimostrazioni: un bar e una galleria d’arte. Xu mi ha portato prima al bar. “Molto tempo fa abbiamo assunto un esperto di cocktail e gli abbiamo chiesto di istruirci sulla preparazione dei cocktail”, ha detto Praveen Srinivasan, un altro co-leader. “Abbiamo registrato le conversazioni e le abbiamo usate per addestrare il nostro modello iniziale”.
Xu aprì un libro di cucina con la ricetta del pollo al curry, puntò il telefono e svegliò Astra. “Ni hao, Bibo!”, disse una voce femminile.
“Oh! Perché mi parli in mandarino?”. Xu chiese al suo telefono. “Puoi parlarmi in inglese, per favore?”.
“Le mie scuse, Bibo. Stavo seguendo una precedente istruzione di parlare in mandarino. Ora parlerò in inglese, come lei ha richiesto”.
Astra ricorda le conversazioni precedenti, mi ha detto Xu. Tiene anche traccia dei 10 minuti di video precedenti. (C’è un momento notevole nel video promozionale che Google ha diffuso a maggio, quando Astra dice alla persona che sta dando la dimostrazione dove ha lasciato i suoi occhiali, avendoli notati su una scrivania pochi secondi prima. Ma non ho visto nulla di simile nella dimostrazione dal vivo).
Torniamo al libro di cucina. Spostando per qualche secondo la fotocamera del telefono sulla pagina, Xu chiese ad Astra di leggere la ricetta e di dirle quali spezie conteneva. “Ricordo che la ricetta menziona un cucchiaino di pepe nero in grani, un cucchiaino di peperoncino in polvere e una stecca di cannella”, ha risposto.
“Credo che ne manchi qualcuno”, disse Xu. “Dai un’altra occhiata”.
“Ha ragione, mi scuso. Tra gli ingredienti vedo anche curcuma macinata e foglie di curry”.
Vedendo questa tecnologia in azione, si notano subito due cose. Primo, è difettosa e spesso deve essere corretta. In secondo luogo, questi inconvenienti possono essere corretti con poche parole. È sufficiente interrompere la voce, ripetere le istruzioni e andare avanti. Sembra più di dare lezioni a un bambino che di scontrarsi con un software difettoso.
Poi Xu ha puntato il telefono su una fila di bottiglie di vino e ha chiesto ad Astra di scegliere quella che si sarebbe abbinata meglio al pollo al curry. Astra ha scelto un rioja e ha spiegato il perché. Xu ha chiesto quanto costasse una bottiglia. Astra ha risposto che avrebbe dovuto usare Search per cercare i prezzi online. Pochi secondi dopo tornò con la risposta.
Ci siamo spostati nella galleria d’arte e Xu ha mostrato ad Astra una serie di schermi con dipinti famosi: la Gioconda, L’urlo di Munch, un Vermeer, un Seurat e molti altri. “Ni hao, Bibo!”, disse la voce.
“Mi stai parlando di nuovo in mandarino”, disse Xu. “Cerca di parlarmi in inglese, per favore”.
“Mi scuso, sembra che abbia capito male. Sì, risponderò in inglese”. (Dovrei saperlo bene, ma giurerei di aver sentito lo sberleffo).
Era il mio turno. Xu mi passò il suo telefono.
Ho cercato di mettere in difficoltà Astra, ma non ne ha voluto sapere. Le ho chiesto in quale famosa galleria d’arte ci trovassimo, ma si è rifiutata di azzardare un’ipotesi. Ho chiesto perché avesse identificato i dipinti come repliche e ha iniziato a scusarsi per l’errore (Astra si scusa spesso). Sono stato costretto a interrompere: “No, no, hai ragione, non è un errore. Hai ragione a identificare i dipinti su schermi come dipinti falsi”. Non ho potuto fare a meno di sentirmi un po’ in colpa: avevo confuso un’applicazione che esiste solo per piacere.
Quando funziona bene, Astra è coinvolgente. L’esperienza di avviare una conversazione con il telefono su qualsiasi cosa si stia puntando è fresca e senza soluzione di continuità. In una conferenza stampa di ieri, Google DeepMind ha condiviso un video che mostra altri utilizzi: leggere un’e-mail sullo schermo del telefono per trovare il codice di una porta (e ricordarlo in seguito), puntare il telefono verso un autobus di passaggio e chiedere dove va, interrogarlo su un’opera d’arte pubblica mentre si passa. Questa potrebbe essere la killer app dell’intelligenza artificiale generativa.
Eppure c’è ancora molta strada da fare prima che la maggior parte delle persone possa mettere le mani su una tecnologia come questa. Non si parla di una data di uscita. Google DeepMind ha anche condiviso video di Astra che lavora a un paio di occhiali intelligenti, ma questa tecnologia è ancora più in basso nella lista dei desideri dell’azienda.
Mescolare il tutto
Per ora, i ricercatori esterni a Google DeepMind stanno seguendo da vicino i suoi progressi. “Il modo in cui le cose vengono combinate è impressionante”, afferma Maria Liakata, che lavora su modelli linguistici di grandi dimensioni presso la Queen Mary University di Londra e l’Alan Turing Institute. “È già abbastanza difficile fare ragionamenti con il linguaggio, ma in questo caso è necessario inserire immagini e altro. Non è una cosa banale”.
Liakata è anche impressionata dalla capacità di Astra di ricordare cose che ha visto o sentito. Lavora su quello che chiama contesto a lungo raggio, facendo in modo che i modelli tengano traccia delle informazioni che hanno incontrato in precedenza. “È entusiasmante”, dice Liakata. “Anche farlo in una sola modalità è entusiasmante”.
Ma ammette che molte delle sue valutazioni sono frutto di congetture. “Il ragionamento multimodale è davvero all’avanguardia”, dice. “Ma è molto difficile sapere esattamente a che punto sono, perché non hanno detto molto su cosa c’è nella tecnologia stessa”.
Per Bodhisattwa Majumder, ricercatore che lavora su modelli e agenti multimodali presso l’Allen Institute for AI, questa è una preoccupazione fondamentale. “Non sappiamo assolutamente come Google lo stia facendo”, afferma.
Egli osserva che se Google fosse un po’ più aperta su ciò che sta costruendo, aiuterebbe i consumatori a capire i limiti della tecnologia che potrebbero presto tenere tra le mani. “Hanno bisogno di sapere come funzionano questi sistemi”, afferma. “Si vuole che l’utente sia in grado di vedere ciò che il sistema ha imparato su di lui, di correggere gli errori o di rimuovere le cose che si vogliono tenere private”.
Liakata è anche preoccupata per le implicazioni sulla privacy, sottolineando che le persone potrebbero essere monitorate senza il loro consenso. “Penso che ci siano cose che mi entusiasmano e cose che mi preoccupano”, dice. “Il fatto che il telefono diventi i tuoi occhi è qualcosa di inquietante”.
“L’impatto che questi prodotti avranno sulla società è così grande che dovrebbe essere preso più seriamente”, afferma l’autrice. “Ma è diventata una gara tra le aziende. È problematico, soprattutto perché non abbiamo un accordo su come valutare questa tecnologia”.
Google DeepMind ha dichiarato di aver preso in considerazione a lungo la privacy, la sicurezza e l’incolumità di tutti i suoi nuovi prodotti. La sua tecnologia sarà testata da gruppi di utenti fidati per mesi prima di essere resa pubblica. “Ovviamente dobbiamo pensare all’uso improprio. Dobbiamo pensare a cosa succede quando le cose vanno male”, afferma Dawn Bloxwich, direttore dello sviluppo responsabile e dell’innovazione dell’azienda. “C’è un enorme potenziale. I guadagni di produttività sono enormi. Ma è anche rischioso”.
Nessun team di tester può prevedere tutti i modi in cui le persone useranno e abuseranno della nuova tecnologia. Quindi qual è il piano per quando accadrà l’inevitabile? Secondo Bloxwich, le aziende devono progettare prodotti che possano essere richiamati o disattivati per ogni evenienza: “Se dobbiamo apportare rapidamente delle modifiche o ritirare qualcosa, possiamo farlo”.