MYLES

Il futuro dei video generativi

Sora di OpenAI ha alzato l’asticella della cinematografia basata sull’intelligenza artificiale. Ecco quattro cose da tenere a mente per capire cosa ci aspetta.

Quando il mese scorso OpenAI ha rivelato il suo nuovo modello di video generativo, Sora, ha invitato una manciata di registi a provarlo. Questa settimana l’azienda ha pubblicato i risultati: sette cortometraggi surreali che non lasciano dubbi sul fatto che il futuro dei video generativi è alle porte.

Il primo gruppo di modelli in grado di trasformare il testo in video è apparso alla fine del 2022, ad opera di aziende come Meta, Google e la startup di video-tecnologia Runway. Si trattava di un trucco interessante, ma i risultati erano sgranati, discontinui e della durata di pochi secondi.

A distanza di 18 mesi, il meglio della produzione fotorealistica e ad alta definizione di Sora è così sorprendente che alcuni osservatori senza fiato prevedono la morte di Hollywood. Gli ultimi modelli di Runway sono in grado di produrre brevi filmati che rivaleggiano con quelli realizzati dagli studi di animazione. Midjourney e Stability AI, le aziende che hanno creato due dei più popolari modelli text-to-image, stanno ora lavorando anche sui video.

Numerose aziende si stanno impegnando per creare un business sulla base di queste scoperte. La maggior parte di esse sta cercando di capire quale sia il proprio business. “Giocando con questi strumenti mi capita spesso di gridare: ‘Porca vacca, è una figata pazzesca'”, dice Gary Lipkowitz, amministratore delegato di Vyond, un’azienda che fornisce una piattaforma point-and-click per la creazione di brevi video animati. “Ma come si può usare al lavoro?”.

Qualunque sia la risposta a questa domanda, probabilmente sconvolgerà un’ampia gamma di attività e cambierà il ruolo di molti professionisti, dagli animatori ai pubblicitari. Crescono anche i timori di un uso improprio. La capacità diffusa di generare video falsi renderà più facile che mai inondare Internet di propaganda e porno non consensuale. Possiamo prevederlo. Il problema è che nessuno ha una soluzione valida.

Mentre continuiamo a capire cosa ci aspetta, nel bene e nel male, ecco quattro cose su cui riflettere. Abbiamo anche curato una selezione dei migliori video che i registi hanno realizzato utilizzando questa tecnologia, compresa un’esclusiva rivelazione di “Somme Requiem”, un cortometraggio sperimentale della casa di produzione Myles di Los Angeles. Continuate a leggere per avere un assaggio della direzione che sta prendendo il cinema basato sull’intelligenza artificiale.

1. Sora è solo l’inizio

Sora di OpenAI è attualmente al di sopra della concorrenza nella generazione di video. Ma altre aziende stanno lavorando duramente per raggiungerlo. Il mercato diventerà estremamente affollato nei prossimi mesi, man mano che altre aziende perfezioneranno la loro tecnologia e inizieranno a lanciare i rivali di Sora.

La startup Haiper, con sede nel Regno Unito, è uscita dall’anonimato questo mese. È stata fondata nel 2021 da ex ricercatori di Google DeepMind e TikTok che volevano lavorare sulla tecnologia chiamata campi di radianza neurale, o NeRF, in grado di trasformare immagini 2D in ambienti virtuali 3D. Pensavano che uno strumento che trasformasse le istantanee in scene in cui gli utenti potessero entrare sarebbe stato utile per creare videogiochi.

Ma sei mesi fa Haiper è passata dagli ambienti virtuali ai videoclip, adattando la sua tecnologia a quello che, secondo l’amministratore delegato Yishu Miao, sarà un mercato ancora più grande dei giochi. “Ci siamo resi conto che la generazione di video era il punto di forza”, afferma Miao. “Ci sarà una domanda altissima”.

“Air Head” è un cortometraggio realizzato da Shy Kids, una band pop e un collettivo di registi con sede a Toronto, utilizzando Sora.

Come Sora di OpenAI, la tecnologia video generativa di Haiper utilizza un modello di diffusione per gestire le immagini e un trasformatore (il componente dei modelli linguistici di grandi dimensioni, come GPT-4, che li rende così bravi a prevedere ciò che verrà dopo), per gestire la coerenza tra i fotogrammi. “I video sono sequenze di dati e i trasformatori sono il modello migliore per imparare le sequenze”, spiega Miao.

La coerenza è una grande sfida per i video generativi e il motivo principale per cui gli strumenti esistenti producono solo pochi secondi di video alla volta. I trasformatori per la generazione di video possono aumentare la qualità e la lunghezza delle clip. Il rovescio della medaglia è che i trasformatori inventano o allucinano. Nel testo, questo non è sempre evidente. Nel video, può risultare, ad esempio, una persona con più teste. Per mantenere i trasformatori in carreggiata sono necessari vasti silos di dati di formazione e magazzini pieni di computer.

Ecco perché Irreverent Labs, fondata da ex ricercatori Microsoft, sta adottando un approccio diverso. Come Haiper, Irreverent Labs ha iniziato a generare ambienti per i giochi prima di passare alla generazione di video completi. Ma l’azienda non vuole seguire il gregge copiando ciò che OpenAI e altri stanno facendo. “Perché in questo caso si tratta di una battaglia di calcolo, una guerra totale tra GPU”, afferma David Raskino, cofondatore e CTO di Irreverent. “E in questo scenario c’è un solo vincitore, che indossa una giacca di pelle”. (Sta parlando di Jensen Huang, CEO del gigante dei chip da mille miliardi di dollari Nvidia).

Invece di utilizzare un trasformatore, la tecnologia di Irreverent combina un modello di diffusione con un modello che prevede cosa ci sarà nel fotogramma successivo sulla base della fisica del senso comune, come il rimbalzo di una palla o gli schizzi d’acqua sul pavimento. Secondo Raskino, questo approccio riduce sia i costi di formazione che il numero di allucinazioni. Il modello produce ancora errori, ma si tratta di distorsioni della fisica (ad esempio, una palla che rimbalza non segue una curva regolare) con soluzioni matematiche note che possono essere applicate al video dopo che è stato generato.

Resta da vedere quale approccio durerà. Miao paragona la tecnologia odierna ai modelli linguistici di grandi dimensioni come GPT-2. Cinque anni fa, l’innovativo modello iniziale di OpenAI ha stupito le persone perché ha mostrato cosa era possibile fare. Ma ci sono voluti altri anni prima che la tecnologia diventasse una vera e propria rivoluzione.

È lo stesso per i video, dice Miao: “Siamo tutti ai piedi della montagna”.

2. Cosa faranno le persone con i video generativi?

Il video è il medium di Internet. YouTube, TikTok, cinegiornali, pubblicità: aspettatevi di vedere video sintetici spuntare ovunque ci sia già un video.

Il settore del marketing è uno dei più entusiasti dall’adozione della tecnologia generativa. Secondo un recente sondaggio condotto da Adobe negli Stati Uniti, due terzi dei professionisti del marketing hanno sperimentato l’IA generativa nel proprio lavoro, e più della metà ha dichiarato di aver utilizzato la tecnologia per produrre immagini.

Il video generativo è il prossimo. Alcune aziende di marketing hanno già realizzato dei cortometraggi per dimostrare il potenziale di questa tecnologia. L’ultimo esempio è “Somme Requiem”, della durata di 2,5 minuti, realizzato da Myles. Potete vedere il filmato qui sotto in un’esclusiva rivelata da MIT Technology Review.

“Somme Requiem” è un cortometraggio realizzato dalla società di produzione Myles di Los Angeles. Ogni ripresa è stata generata utilizzando il modello Gen 2 di Runway. Le clip sono state poi montate insieme da un team di montatori video di Myles.

“Somme Requiem” ritrae i soldati bloccati dalla neve durante la tregua natalizia della Prima Guerra Mondiale nel 1914. Il film è composto da decine di inquadrature diverse che sono state prodotte utilizzando un modello video generativo di Runway, poi unite, corrette nel colore e musicate da editor video umani di Myles. “Il futuro della narrazione sarà un flusso di lavoro ibrido”, afferma il fondatore e CEO Josh Kahn.

Kahn ha scelto l’ambientazione bellica d’epoca per fare un punto della situazione. Fa notare che la serie di Apple TV+ Masters of the Air, che segue un gruppo di aviatori della Seconda Guerra Mondiale, è costata 250 milioni di dollari. Il team che ha realizzato il documentario di Peter Jackson sulla Prima Guerra Mondiale, They Shall Not Grow Old, ha impiegato quattro anni per raccogliere e restaurare più di 100 ore di filmati d’archivio. “La maggior parte dei registi può solo sognare di avere l’opportunità di raccontare una storia di questo genere”, afferma Kahn.

“Il cinema indipendente sta morendo”, aggiunge. “Penso che questo creerà un’incredibile rinascita”.

Raskino lo spera. “Il genere dei film horror è quello in cui le persone sperimentano nuove cose, per provare nuove cose finché non si rompono”, dice. “Penso che vedremo un film horror di successo creato da, tipo, quattro persone in uno scantinato da qualche parte usando l’IA”.

Il video generativo è un killer di Hollywood? Non ancora. Le inquadrature di “Somme Requiem” – boschi vuoti, un campo militare desolato – sono fantastiche. Ma le persone che vi partecipano sono ancora afflitte da dita maciullate e volti distorti, caratteristiche della tecnologia. Il video generativo dà il meglio di sé nelle panoramiche grandangolari o nei primi piani prolungati, che creano un’atmosfera inquietante ma poca azione. Se “Somme Requiem” fosse più lungo, diventerebbe noioso.

Ma le inquadrature di scena compaiono continuamente nei lungometraggi. La maggior parte di esse dura solo pochi secondi, ma possono richiedere ore di riprese. Raskino suggerisce che i modelli video generativi potrebbero presto essere utilizzati per produrre queste inquadrature intermedie a una frazione del costo. Questo potrebbe anche essere fatto al volo nelle fasi successive della produzione, senza richiedere una ripresa.

Michal Pechoucek, CTO di Gen Digital, il gigante della cybersicurezza dietro una serie di marchi antivirus come Norton e Avast, è d’accordo. “Penso che questa sia la direzione in cui si muove la tecnologia”, afferma. “Vedremo molti modelli diversi, ciascuno specificamente addestrato in un certo settore della produzione cinematografica. Saranno solo strumenti utilizzati da talentuosi team di produzione video”.

Non ci siamo ancora arrivati. Un grosso problema dei video generativi è la mancanza di controllo da parte degli utenti sul risultato. Produrre immagini fisse può essere un errore; produrre pochi secondi di video è ancora più rischioso.

“Al momento è ancora divertente, si possono ottenere momenti “a-ha””, dice Miao. “Ma generare video che siano esattamente ciò che si vuole è un problema tecnico molto difficile. Siamo ancora lontani dal generare video lunghi e coerenti da un singolo prompt”.

Ecco perché Lipkowitz di Vyond ritiene che la tecnologia non sia ancora pronta per la maggior parte dei clienti aziendali. Secondo Lipkowitz, questi utenti vogliono avere molto più controllo sull’aspetto di un video rispetto agli strumenti attuali.

Migliaia di aziende in tutto il mondo, tra cui circa il 65% delle aziende Fortune 500, utilizzano la piattaforma di Vyond per creare video animati per le comunicazioni interne, la formazione, il marketing e altro ancora. Vyond si basa su una serie di modelli generativi, tra cui text-to-image e text-to-voice, ma fornisce una semplice interfaccia drag-and-drop che consente agli utenti di mettere insieme un video a mano, pezzo per pezzo, piuttosto che generare una clip completa con un clic.

Gestire un modello generativo è come lanciare i dadi, dice Lipkowitz. “È un no difficile per la maggior parte dei team di produzione video, in particolare nel settore aziendale, dove tutto deve essere perfetto al pixel e in linea con il marchio”, afferma Lipkowitz. “Se il video viene male – magari i personaggi hanno troppe dita, o magari c’è un logo aziendale del colore sbagliato – beh, per sfortuna, è proprio così che funziona l’intelligenza artificiale”.

La soluzione? Più dati, più formazione, ripetizione. “Vorrei poter indicare qualche algoritmo sofisticato”, dice Miao. “Ma no, si tratta solo di imparare ancora di più”.

3. La disinformazione non è una novità, ma i deepfake peggioreranno la situazione.

La disinformazione online ha minato per anni la nostra fiducia nei media, nelle istituzioni e tra di noi. Alcuni temono che l’aggiunta di video falsi al mix distrugga i pilastri della realtà condivisa che ci sono rimasti.

“Stiamo sostituendo la fiducia con la sfiducia, la confusione, la paura e l’odio”, afferma Pechoucek. “La società senza verità di fondo degenera”.

Pechoucek è particolarmente preoccupato per l’uso malevolo dei deepfake nelle elezioni. Durante le elezioni dello scorso anno in Slovacchia, ad esempio, gli aggressori hanno condiviso un video falso che mostrava il candidato principale mentre discuteva dei piani per manipolare gli elettori. Il video era di bassa qualità e facile da individuare come deepfake. Ma Pechoucek ritiene che sia stato sufficiente a ribaltare il risultato a favore dell’altro candidato.

Un video realizzato da Sora con la richiesta: “Una donna elegante cammina in una strada di Tokyo piena di neon caldi e luminosi e di insegne animate della città. Indossa una giacca di pelle nera, un abito lungo rosso, stivali neri e una borsa nera. Indossa occhiali da sole e rossetto rosso. Cammina con sicurezza e disinvoltura. La strada è umida e riflettente, creando un effetto specchio delle luci colorate. Molti pedoni camminano”. OPENAI

John Wissinger, che dirige i team di strategia e innovazione di Blackbird AI, un’azienda che si occupa di tracciare e gestire la diffusione della disinformazione online, ritiene che i video falsi siano più persuasivi quando mescolano filmati veri e falsi. Prendiamo due video che mostrano il presidente Joe Biden mentre cammina su un palco. In uno inciampa, nell’altro no. Chi può dire quale sia quello vero?

“Diciamo che un evento è realmente accaduto, ma il modo in cui mi viene presentato è sottilmente diverso”, dice Wissinger. “Questo può influenzare la mia risposta emotiva”. Come ha notato Pechoucek, un video falso non deve nemmeno essere così bello per avere un impatto. Secondo Wissinger, un falso scadente che si adatta ai pregiudizi esistenti farà più danni di un falso furbo che non lo fa.

Ecco perché Blackbird si concentra su chi condivide cosa con chi. In un certo senso, il fatto che qualcosa sia vero o falso è meno importante della sua provenienza e del modo in cui viene diffuso, dice Wissinger. La sua azienda tiene già traccia della disinformazione a bassa tecnologia, come i post sui social media che mostrano immagini reali fuori contesto. Le tecnologie generative peggiorano le cose, ma il problema delle persone che presentano i media in modo fuorviante, deliberatamente o meno, non è nuovo.

Se a questo si aggiungono i bot, che condividono e promuovono la disinformazione sui social network, le cose si complicano. Il solo fatto di sapere che i media falsi sono là fuori seminerà il dubbio nei discorsi in malafede. “Si può vedere come presto potrebbe diventare impossibile discernere tra ciò che è sintetizzato e ciò che è reale”, dice Wissinger.

4. Siamo di fronte a una nuova realtà online.

I falsi saranno presto ovunque, dalle campagne di disinformazione, agli spot pubblicitari, ai blockbuster di Hollywood. Cosa possiamo fare per capire cosa è reale e cosa è solo fantasia? Esiste una serie di soluzioni, ma nessuna funzionerà da sola.

L’industria tecnologica sta lavorando al problema. La maggior parte degli strumenti generativi cerca di far rispettare alcune condizioni d’uso, ad esempio impedendo di creare video di personaggi pubblici. Ma ci sono modi per aggirare questi filtri e le versioni open-source degli strumenti potrebbero avere politiche più permissive.

Le aziende stanno anche sviluppando standard per la filigrana dei media generati dall’intelligenza artificiale e strumenti per rilevarla. Ma non tutti gli strumenti aggiungono filigrane e le filigrane possono essere eliminate dai metadati di un video. Non esiste nemmeno uno strumento di rilevamento affidabile. Anche se tali strumenti funzionassero, diventerebbero parte di un gioco al gatto e al topo per cercare di tenere il passo con i progressi dei modelli che sono stati progettati per controllare.

Un video realizzato da Sora con la richiesta: “Un trailer cinematografico con le avventure del trentenne spaziale che indossa un casco da motociclista in maglia di lana rossa, cielo blu, deserto di sale, stile cinematografico, girato su pellicola 35mm, colori vividi”. OPENAI

Piattaforme online come X e Facebook hanno un bilancio negativo quando si tratta di moderazione. Non dobbiamo aspettarci che facciano meglio una volta che il problema diventa più difficile. Miao lavorava a TikTok, dove ha contribuito a costruire uno strumento di moderazione che individua i video caricati che violano i termini d’uso di TikTok. Anche lui è cauto riguardo a ciò che sta per accadere: “C’è un pericolo reale là fuori”, dice. “Non fidatevi delle cose che vedete sul vostro portatile”.

Blackbird ha sviluppato uno strumento chiamato Compass, che consente di verificare i fatti di articoli e post dei social media. Incollando un link nello strumento, un modello linguistico di grandi dimensioni genera un trafiletto tratto da fonti online attendibili (che sono sempre aperte alla revisione, dice Wissinger) che fornisce un contesto per il materiale collegato. Il risultato è molto simile alle note della comunità che a volte vengono allegate ai post controversi su siti come X, Facebook e Instagram. L’azienda prevede che Compass possa generare note della comunità per qualsiasi cosa. “Ci stiamo lavorando”, dice Wissinger.

Ma le persone che inseriscono i link in un sito web di fact-checking sono già piuttosto esperte – e molti altri potrebbero non sapere che tali strumenti esistono, o non essere inclini a fidarsi di loro. La disinformazione, inoltre, tende a viaggiare molto più a lungo di qualsiasi correzione successiva.

Nel frattempo, le persone non sono d’accordo su chi sia il problema principale. Pechoucek sostiene che le aziende tecnologiche devono aprire i loro software per consentire una maggiore concorrenza in materia di sicurezza e fiducia. Questo consentirebbe anche alle aziende di cybersicurezza come la sua di sviluppare software di terze parti per controllare questa tecnologia. È quello che è successo 30 anni fa quando Windows ha avuto un problema di malware, dice: “Microsoft ha permesso alle aziende di antivirus di aiutare a proteggere Windows. Di conseguenza, il mondo online è diventato un posto più sicuro”.

Ma Pechoucek non è troppo ottimista. “Gli sviluppatori di tecnologie devono costruire i loro strumenti con la sicurezza come obiettivo principale”, afferma. “Ma molte persone pensano a come rendere la tecnologia più potente piuttosto che preoccuparsi di come renderla più sicura”.

Un video realizzato da Sora con la richiesta: “Vista da drone delle onde che si infrangono contro le scogliere frastagliate lungo la spiaggia di Garay Point di Big Sur”. Le acque blu che si infrangono creano onde dalla punta bianca, mentre la luce dorata del sole al tramonto illumina la riva rocciosa. In lontananza si trova un’isoletta con un faro e il verde degli arbusti copre il bordo della scogliera. La ripida discesa dalla strada alla spiaggia è un’impresa drammatica, con i bordi della scogliera che sporgono sul mare. Questa è una vista che cattura la cruda bellezza della costa e il paesaggio aspro della Pacific Coast Highway”. OPENAI

C’è un ritornello fatalista comune nell’industria tecnologica: il cambiamento sta arrivando, affrontalo. “L’IA generativa non verrà disinventata”, afferma Raskino. “Forse non sarà molto popolare, ma credo che sia vero: non credo che le aziende tecnologiche possano sopportare tutto il peso. In fin dei conti, la migliore difesa contro qualsiasi tecnologia è un pubblico ben istruito. Non ci sono scorciatoie”.

Miao è d’accordo. “È inevitabile che adotteremo in modo massiccio la tecnologia generativa”, afferma. “Ma è anche una responsabilità dell’intera società. Dobbiamo educare le persone”.

“La tecnologia andrà avanti e noi dobbiamo essere preparati a questo cambiamento”, aggiunge. “Dobbiamo ricordare ai nostri genitori e ai nostri amici che le cose che vedono sullo schermo potrebbero non essere autentiche”. Questo vale soprattutto per le generazioni più anziane: “I nostri genitori devono essere consapevoli di questo tipo di pericolo. Credo che tutti debbano collaborare”.

Dovremo lavorare insieme rapidamente. Quando un mese fa è uscito Sora, il mondo della tecnologia è rimasto sbalordito dalla rapidità con cui i video generativi sono progrediti. Ma la stragrande maggioranza delle persone non ha idea dell’esistenza di questo tipo di tecnologia, dice Wissinger: “Sicuramente non capiscono le linee di tendenza che stiamo seguendo. Credo che il mondo si stia facendo strada”.

Related Posts
Total
0
Share