Sebbene mostri ciò che il video generativo è in grado di fare, accenna anche ai suoi difetti e limiti.
I Giochi Olimpici di Parigi si sono conclusi il mese scorso e le Paralimpiadi sono ancora in corso, quindi le Olimpiadi estive del 2028 a Los Angeles sembrano lontane nel tempo. Ma la prospettiva di assistere ai giochi nella sua città natale ha spinto Josh Kahn, regista nel mondo dell’intrattenimento sportivo che ha lavorato alla creazione di contenuti sia per LeBron James che per i Chicago Bulls, a pensare ancora più lontano nel futuro: come potrebbero essere le Olimpiadi di Los Angeles nell’anno 3028?
È il tipo di esercizio creativo perfetto per la generazione di video da parte dell’intelligenza artificiale, che è entrata nel mainstream con il debutto di Sora di OpenAI all’inizio di quest’anno. Digitando le richieste in generatori come Runway o Synthesia, gli utenti possono generare video ad alta definizione in pochi minuti. È veloce ed economico e presenta pochi ostacoli tecnici rispetto alle tecniche di creazione tradizionali come la CGI o l’animazione. Anche se ogni fotogramma non è perfetto – distorsioni come mani con sei dita o oggetti che scompaiono sono comuni – ci sono, almeno in teoria, una serie di applicazioni commerciali. Agenzie pubblicitarie, aziende e creatori di contenuti potrebbero utilizzare questa tecnologia per creare video in modo rapido ed economico.
Kahn, che da tempo si cimenta con gli strumenti video dell’intelligenza artificiale, ha usato l’ultima versione di Runway per sognare come potrebbero essere le Olimpiadi del futuro, inserendo un nuovo prompt nel modello per ogni ripresa. Il video, della durata di poco più di un minuto, presenta ampie vedute aeree di una versione futuristica di Los Angeles in cui il livello del mare si è innalzato notevolmente, lasciando la città stipata fino alla costa. Uno stadio di calcio si trova in cima a un grattacielo, mentre una cupola al centro del porto contiene campi da beach volley.
Il video, condiviso in esclusiva con MIT Technology Review, non è tanto una mappa della città quanto una dimostrazione di ciò che è possibile fare oggi con l’intelligenza artificiale.
“Stavamo guardando le Olimpiadi e la cura con cui viene raccontata la storia culturale della città ospitante”, racconta Kahn. “A Los Angeles c’è una cultura dell’immaginazione e della narrazione che ha fatto scuola nel resto del mondo. Non sarebbe bello se potessimo mostrare come sarebbero le Olimpiadi se tornassero a Los Angeles tra 1.000 anni?”.
Il video mostra soprattutto quale vantaggio la tecnologia generativa possa rappresentare per i creatori. Tuttavia, indica anche cosa la frena. Sebbene Kahn abbia rifiutato di condividere i suoi suggerimenti per le riprese o di specificare quante richieste sono state necessarie per ottenere ogni ripresa, ha avvertito che chiunque desideri creare buoni contenuti con l’IA deve essere a proprio agio con i tentativi e gli errori. Una sfida particolare per il suo progetto futuristico è stata quella di far sì che il modello AI pensasse fuori dagli schemi in termini di architettura. Uno stadio che si libra sull’acqua, per esempio, non è qualcosa di cui la maggior parte dei modelli di IA ha visto molti esempi nei propri dati di addestramento.
Poiché ogni ripresa richiede una nuova serie di suggerimenti, è anche difficile infondere un senso di continuità in un video. Il colore, l’angolo del sole e le forme degli edifici sono difficili da mantenere per un modello di generazione video. Nel video mancano anche i primi piani delle persone, cosa che secondo Kahn i modelli di IA tendono ancora a non fare.
“Queste tecnologie sono sempre migliori per le cose su larga scala, rispetto a un’interazione umana davvero ricca di sfumature”, afferma Kahn. Per questo motivo, Kahn immagina che le prime applicazioni cinematografiche del video generativo potrebbero riguardare riprese ampie di paesaggi o folle di persone.
Alex Mashrabov, un esperto di video di IA che l’anno scorso ha lasciato il ruolo di direttore dell’IA generativa presso Snap per fondare una nuova società di video di IA chiamata Higgsfield AI, concorda sugli attuali fallimenti e difetti dei video di IA. Sottolinea inoltre che è difficile produrre con l’intelligenza artificiale buoni contenuti ricchi di dialoghi, che tendono a basarsi su sottili espressioni facciali e sul linguaggio del corpo.
Alcuni creatori di contenuti potrebbero essere riluttanti ad adottare il video generativo semplicemente per la quantità di tempo necessaria a richiedere i modelli più volte per ottenere il risultato finale corretto.
“In genere, la percentuale di successo è di uno su 20”, afferma Mashrabov, ma non è raro che siano necessari 50 o 100 tentativi.
Per molti scopi, però, è sufficiente. Mashrabov afferma di aver assistito a un aumento delle pubblicità video generate dall’intelligenza artificiale da parte di grandi fornitori come Temu. Nei Paesi produttori di beni come la Cina, i generatori di video sono molto richiesti per realizzare rapidamente annunci video in-your-face per determinati prodotti. Anche se un modello di intelligenza artificiale potrebbe richiedere molte richieste per produrre un annuncio utilizzabile, filmarlo con persone, telecamere e attrezzature reali potrebbe essere 100 volte più costoso. Applicazioni come questa potrebbero essere il primo utilizzo del video generativo su scala, visto il lento miglioramento della tecnologia.
“Anche se ritengo che si tratti di un percorso molto lungo, sono molto fiducioso che ci siano frutti a portata di mano”, afferma Mashrabov. “Stiamo scoprendo i generi in cui l’IA generativa è già buona oggi”.