La recente presentazione del modello generativo Sora di OpenAI ha spinto il limite di ciò che è possibile fare con il text-to-video. Ora Google DeepMind ci porta i giochi text-to-video.
Il nuovo modello, chiamato Genie, è in grado di prendere una breve descrizione, uno schizzo disegnato a mano o una foto e di trasformarla in un videogioco giocabile nello stile dei classici platform 2D come Super Mario Bros. I giochi funzionano a un fotogramma al secondo, contro i 30-60 fotogrammi al secondo tipici della maggior parte dei giochi moderni.
“È un lavoro fantastico”, afferma Matthew Guzdial, ricercatore di intelligenza artificiale presso l’Università di Alberta, che ha sviluppato un generatore di giochi simile qualche anno fa.
Genie è stato addestrato sulla base di 30.000 ore di video di centinaia di giochi di piattaforma 2D presi da Internet. Altri hanno già adottato questo approccio, dice Guzdial. Il suo generatore di giochi ha imparato dai video per creare platform astratti. Nvidia ha utilizzato i dati video per addestrare un modello chiamato GameGAN in grado di produrre cloni di giochi come Pac-Man.
Ma tutti questi esempi hanno addestrato il modello con azioni di input (come la pressione di un pulsante su un controller), oltre che con filmati: un fotogramma video che mostra Mario che salta è stato abbinato all’azione Salta, e così via. L’etichettatura dei filmati con le azioni di input richiede molto lavoro, il che ha limitato la quantità di dati di addestramento disponibili.
Genie, invece, è stato addestrato solo su filmati. Ha quindi imparato quali di otto possibili azioni avrebbero fatto cambiare posizione al personaggio del gioco in un video. Questo ha trasformato innumerevoli ore di video online esistenti in potenziali dati di addestramento.
Genie genera al volo ogni nuovo fotogramma del gioco in base all’azione compiuta dal giocatore. Premendo Salta, Genie aggiorna l’immagine corrente per mostrare il personaggio del gioco che salta; premendo Sinistra, l’immagine cambia per mostrare il personaggio spostato a sinistra. Il gioco procede azione per azione, ogni nuovo fotogramma viene generato da zero mentre il giocatore gioca.
Le future versioni di Genie potrebbero funzionare più velocemente. “Non c’è alcuna limitazione fondamentale che ci impedisca di raggiungere i 30 fotogrammi al secondo”, afferma Tim Rocktäschel, ricercatore di Google DeepMind che guida il team dietro al lavoro. “Genie utilizza molte delle stesse tecnologie dei contemporanei large language models, dove sono stati compiuti progressi significativi nel migliorare la velocità di inferenza”.
Genie ha imparato alcune stranezze visive comuni ai platform. Molti giochi di questo tipo utilizzano la parallasse, in cui il primo piano si muove lateralmente più velocemente dello sfondo. Genie spesso aggiunge questo effetto ai giochi che genera.
Anche se Genie è un progetto di ricerca interno e non verrà rilasciato, Guzdial fa notare che il team di Google DeepMind afferma che un giorno potrebbe essere trasformato in uno strumento per la creazione di giochi, cosa a cui sta lavorando anche lui. “Sono sicuramente interessato a vedere cosa costruiranno”, dice.
Campi da gioco virtuali
Ma i ricercatori di Google DeepMind non sono interessati solo alla generazione di giochi. Il team che sta dietro a Genie lavora sull’apprendimento aperto, in cui i bot controllati dall’intelligenza artificiale vengono inseriti in un ambiente virtuale e lasciati liberi di risolvere vari compiti per tentativi ed errori (una tecnica nota come apprendimento per rinforzo).
Nel 2021, un altro team di DeepMind ha sviluppato un parco giochi virtuale chiamato XLand, in cui i bot hanno imparato a cooperare in compiti semplici come lo spostamento di ostacoli. Sandbox come XLand saranno fondamentali per addestrare i futuri bot a una serie di sfide diverse prima di metterli di fronte a scenari reali. Gli esempi di videogiochi dimostrano che Genie può essere utilizzato per generare tali aree di gioco virtuali.
Altri hanno sviluppato strumenti simili per la costruzione di mondi. Ad esempio, nel 2018 David Ha di Google Brain e Jürgen Schmidhuber del laboratorio di intelligenza artificiale IDSIA in Svizzera hanno sviluppato uno strumento che addestra i bot in ambienti virtuali basati sul gioco, chiamati modelli di mondo. Ma anche in questo caso, a differenza di Genie, i dati di addestramento dovevano includere azioni di input.
Il team ha dimostrato come questa capacità sia utile anche nella robotica. Quando a Genie sono stati mostrati video di bracci robotici reali che manipolavano una serie di oggetti domestici, il modello ha imparato quali azioni poteva compiere quel braccio e come controllarlo. I robot del futuro potrebbero imparare nuovi compiti guardando video tutorial.
“È difficile prevedere quali casi d’uso saranno abilitati”, afferma Rocktäschel. “Speriamo che progetti come Genie alla fine forniscano alle persone nuovi strumenti per esprimere la loro creatività”.