Da non perdere: la prima mondiale di Frost, il cortometraggio generato dall’intelligenza artificiale.
Il film Frost cattura per la sua atmosfera inquietante già dalle prime inquadrature. Grandi montagne ghiacciate, un accampamento improvvisato di tende in stile militare, un gruppo di persone rannicchiate intorno a un fuoco, cani che abbaiano. Sono cose familiari, ma con un elemento di bizzarria che genera paura. C’è qualcosa di sbagliato.
“Passami la coda”, dice qualcuno. Si vede un primo piano di un uomo vicino al fuoco che rosicchia un pezzo di carne secca rosa. È grottesco. Il modo in cui le sue labbra si muovono non è del tutto corretto. Per un attimo sembra che stia masticando la sua stessa lingua congelata.
Benvenuti nell’inquietante mondo dell’intelligenza artificiale cinematografica. “Abbiamo raggiunto un punto in cui abbiamo smesso di lottare contro il desiderio di accuratezza fotografica e abbiamo iniziato a lasciarci andare alla stranezza di DALL-E”, dice Stephen Parker di Waymark, l’azienda di creazione video di Detroit che ha realizzato The Frost.
The Frost è un film di 12 minuti in cui ogni inquadratura è generata da un’intelligenza artificiale che crea immagini. È uno degli esempi più impressionanti e bizzarri di questo nuovo genere. Potete vedere il film qui sotto.
Per realizzare The Frost, Waymark ha preso una sceneggiatura scritta da Josh Rubin, un produttore esecutivo della società che ha diretto il film, e l’ha data in pasto al modello di creazione di immagini DALL-E 2 di OpenAI. Dopo alcuni tentativi ed errori per far sì che il modello producesse immagini in uno stile che li soddisfacesse, i registi hanno usato DALL-E 2 per generare ogni singola inquadratura. Poi hanno usato D-ID, uno strumento di intelligenza artificiale in grado di aggiungere movimento alle immagini fisse, per animare le inquadrature, facendo muovere gli occhi e le labbra.
“Abbiamo costruito un mondo a partire da ciò che DALL-E ci stava restituendo”, dice Rubin. “È un’estetica strana, ma l’abbiamo accolta a braccia aperte. È diventata lo stile del film”.
“Questo è certamente il primo film di IA generativa che ho visto in cui lo stile è coerente”, afferma Souki Mehdaoui, regista indipendente e cofondatore di Bell & Whistle, una società di consulenza specializzata in tecnologie creative. “La generazione di immagini fisse e i personaggi che sembrano manovrati da un burattinaio, gli conferiscono un’atmosfera divertente”.
Frost si aggiunge a una serie di cortometraggi realizzati con vari strumenti di intelligenza artificiale generativa pubblicati negli ultimi mesi. I migliori modelli video generativi possono ancora produrre solo pochi secondi di video. Pertanto, i filmati attuali presentano un’ampia gamma di stili e tecniche, che vanno da sequenze di immagini fisse simili a storyboard, come nel caso di The Frost, a mash-up di diversi video clip della durata di pochi secondi.
A febbraio e marzo, Runway, un’azienda che produce strumenti di intelligenza artificiale per la produzione video, ha ospitato un festival di film sull’intelligenza artificiale a New York. Tra i filmati più significativi, l’ultraterreno PLSTC di Laen Sanches, una sequenza vertiginosa di strane creature marine avvolte nella plastica e generate dal modello di creazione di immagini Midjourney; l’onirico Given Again di Jake Oleson, che utilizza una tecnologia chiamata NeRF (Neural Radiance Fields) per trasformare foto 2D in oggetti virtuali 3D; e la nostalgia surreale di Expanded Childhood di Sam Lawton, una presentazione di vecchie foto di famiglia che Lawton ha fatto estendere a DALL-E 2 oltre i loro confini, permettendogli di giocare con alcuni piccoli dettagli delle vecchie immagini.
Lawton mostra le immagini al padre e registra la sua reazione nel filmato: “C’è qualcosa che non va. Non so cosa sia. Forse non ricordo?”.
Veloce ed economico
Gli artisti sono spesso i primi a sperimentare le nuove tecnologie. Ma l’immediato futuro del video generativo è stato plasmato dall’industria pubblicitaria. Waymark ha realizzato The Frost per esplorare come l’intelligenza artificiale generativa possa essere integrata nei suoi prodotti. La società produce infatti strumenti per la creazione di video per le aziende che cercano un modo veloce ed economico per realizzare spot pubblicitari. Waymark è una delle numerose startup, insieme ad aziende come Softcube e Vedia AI, che offrono annunci video su misura per i clienti con pochi clic.
L’attuale tecnologia di Waymark, lanciata all’inizio dell’anno, mette insieme diverse tecniche di IA, tra cui modelli linguistici di grandi dimensioni, riconoscimento delle immagini e sintesi vocale, per generare velocemente un annuncio video. Waymark ha anche attinto al suo ampio set di dati di spot pubblicitari non generati dall’IA e creati per precedenti clienti. “Abbiamo centinaia di migliaia di video”, afferma il CEO Alex Persky-Stern. “Abbiamo estratto i migliori e abbiamo addestrato l’IA a capire come deve essere un buon video”.
Per utilizzare lo strumento di Waymark, che viene offerto come servizio di abbonamento a partire da 25 dollari al mese, gli utenti devono semplicemente fornire il nome e la sede di un’azienda. Lo strumento inizia con lo scraping dei siti web e degli account dei social media di quell’azienda alla ricerca di testi e immagini. Utilizza poi questi dati per generare uno spot pubblicitario, utilizzando GPT-3 di OpenAI per scrivere una sceneggiatura che viene letta ad alta voce da una voce sintetizzata su immagini selezionate che mettono in evidenza l’azienda.
In pochi secondi è possibile generare uno spot pubblicitario di un minuto. Gli utenti possono modificare il risultato se lo desiderano, modificando la sceneggiatura, le immagini, scegliendo una voce diversa e così via. Waymark afferma che finora più di 100.000 persone hanno utilizzato il suo strumento (qui è possibile vedere uno degli spot generati dall’intelligenza artificiale di Waymark).
Il problema è che non tutte le aziende hanno un sito web o immagini da cui attingere, dice Parker. “Un commercialista o un terapeuta potrebbero non averne”, afferma.
La prossima idea di Waymark è quella di utilizzare l’intelligenza artificiale generativa per creare immagini e video per le aziende che non ne hanno ancora, o che non vogliono usare quelli che hanno. “È questa la spinta che ha portato alla realizzazione di The Frost“, dice Parker. “Creare un mondo, un’atmosfera”.
The Frost ha un’atmosfera particolare. Ma è anche un po’ strano. “Non è ancora perfetto”, dice Rubin. “È stato un po’ difficile ottenere certe cose da DALL-E, come le risposte emotive dei volti. Ma altre volte ci ha deliziato. Ci siamo detti: ‘Oh mio Dio, questa magia sta accadendo davanti ai nostri occhi'”.
Questo processo, che va a tentoni, migliorerà man mano che la tecnologia si perfezionerà. DALL-E 2, che Waymark ha utilizzato per realizzare The Frost, è uscito solo un anno fa. Gli strumenti di generazione video che generano brevi clip sono in circolazione solo da pochi mesi.
L’aspetto più rivoluzionario della tecnologia è la possibilità di generare nuove inquadrature ogni volta che si vuole, dice Rubin: “Con 15 minuti di tentativi ed errori, si ottiene l’inquadratura desiderata che si inserisce perfettamente in una sequenza”. Ricorda di aver tagliato il film e di aver avuto bisogno di particolari inquadrature, come un primo piano di uno scarpone sul fianco di una montagna. Con DALL-E, poteva semplicemente richiederlo. “È sbalorditivo”, dice. “È stato allora che l’esperienza di regista si è rivelata davvero illuminante”.
Chris Boyle, cofondatore di Private Island, una startup londinese che produce video di breve durata, ricorda anche le sue prime impressioni sui modelli di creazione di immagini l’anno scorso. “Ho avuto un momento di vertigine quando ho pensato: ‘Questo cambierà tutto'”.
Boyle e il suo team hanno realizzato spot pubblicitari per una serie di marchi globali, tra cui Bud Light, Nike, Uber e Terry’s Chocolate, oltre a brevi video per videogiochi di successo come Call of Duty.
Private Island utilizza gli strumenti di intelligenza artificiale in postproduzione da alcuni anni, ma ha aumentato il suo utilizzo nel corso della pandemia. “Durante l’isolamento eravamo molto occupati ma non potevamo girare come prima, quindi abbiamo iniziato a puntare molto di più sull’apprendimento automatico”, dice Boyle.
L’azienda ha adottato una serie di tecnologie che facilitano la postproduzione e gli effetti visivi, come la creazione di scene 3D da immagini 2D con i NeRF e l’utilizzo dell’apprendimento automatico per estrarre i dati di motion-capture da filmati esistenti invece di raccoglierli da zero.
Ma l’IA generativa è la nuova frontiera. Un paio di mesi fa, Private Island ha pubblicato sul suo account Instagram una parodia di una pubblicità di birra prodotta utilizzando il modello di creazione video Gen-2 di Runway e il modello di creazione di immagini Stable Diffusion di Stability AI. È diventato un successo virale. Il video, intitolato Synthetic Summer, mostra una tipica scena di festa in cortile, dove persone giovani e spensierate si rilassano e sorseggiano i loro drink sotto il sole. Ma molte di queste persone hanno buchi al posto della bocca, le lattine di birra affondano nella testa quando bevono e il cortile va a fuoco. È un film dell’orrore.
“All’inizio lo guardi: è una cosa generica all’americana”, dice Boyle. “Ma il tuo lobo occipitale o quello che è, dice: ‘Ugh tutte le loro facce sono al contrario'”.
“Ci piace giocare con l’uso del mezzo stesso per raccontare la storia”, dice. “E penso che Synthetic Summer sia un ottimo esempio perché il mezzo stesso è così inquietante. In un certo senso visualizza alcune delle nostre paure sull’IA”.
Utilizzare i propri punti di forza
È l’inizio di una nuova era del cinema? Gli strumenti attuali hanno una tavolozza limitata. The Frost e Synthetic Summer sfruttano entrambi i punti di forza della tecnologia che li ha prodotti. The Frost si adatta bene all’estetica inquietante di DALL-E 2. Synthetic Summer ha molti tagli rapidi, perché gli strumenti di generazione video come Gen-2 producono solo pochi secondi di video alla volta che poi devono essere uniti. Questo funziona per una scena di festa in cui tutto è caotico, dice Boyle. Private Island ha anche pensato di realizzare un film di arti marziali, dove i tagli rapidi si adattano al soggetto.
Ciò potrebbe significare che inizieremo a vedere i video generativi utilizzati nei video musicali e nelle pubblicità. Ma al di là di questo, il futuro non è chiaro. A parte gli artisti sperimentali e alcuni marchi, non ci sono ancora molte altre persone che lo usano, dice Mehdaoui.
Il progresso costante è anche un ostacolo per i potenziali clienti. “Ho parlato con molte aziende che sembrano interessate, ma che sono restie a investire risorse in progetti perché la tecnologia cambia così velocemente”, spiega Boyle. Afferma pure che molte aziende sono anche diffidenti in ragione delle cause in corso per l’uso di immagini protette da copyright nei set di dati utilizzati per addestrare modelli come Stable Diffusion.
Nessuno sa con certezza dove arriveremo, dice Mehdaoui: “Ci sono molte ipotesi che vengono lanciate come freccette in questo momento, senza che dietro ci siano considerazioni ben definite”.
Nel frattempo, i registi continuano a sperimentare questi nuovi strumenti. Ispirata dal lavoro di Jake Olseon, che è un suo amico, Mehdaoui sta usando gli strumenti dell’intelligenza artificiale generativa per realizzare un breve documentario che aiuti a destigmatizzare il disturbo da uso di oppioidi.
Waymark sta pianificando un sequel di The Frost, ma non è convinta di DALL-E 2. “Mi pare sia più una cosa del tipo ‘diamogli un’occhiata'”, dice Persky-Stern. “Quando faremo il prossimo, probabilmente useremo una nuova tecnologia e vedremo cosa è in grado di fare”.
Private Island sta sperimentando anche altri film. All’inizio di quest’anno ha realizzato un video con una sceneggiatura prodotta da ChatGPT e immagini prodotte da Stable Diffusion. Ora sta lavorando a un film ibrido, con attori in carne e ossa che indossano costumi disegnati da Stable Diffusion.
“Siamo molto interessati all’estetica”, afferma Boyle, aggiungendo che si tratta di un cambiamento rispetto all’immaginario dominante nella cultura digitale, che si è ridotto alle emoji e all’effetto glitch. “È entusiasmante vedere da dove verrà la nuova estetica. L’intelligenza artificiale generativa è come un’immagine riflessa di noi stessi distorta”.