Questa settimana OpenAI ha pubblicato una nuova serie di video creati con il suo generatore di testo-video. Ecco come sono stati realizzati.
Nell’ultimo mese, una manciata di registi ha provato Sora. I risultati, che OpenAI ha pubblicato questa settimana, sono sorprendenti. I cortometraggi sono un bel salto in avanti anche rispetto ai video dimostrativi selezionati che OpenAI ha usato per presentare il suo nuovo modello generativo solo sei settimane fa. Ecco come hanno fatto tre di questi registi.
“Air Head” di Shy Kids
Gli Shy Kids sono un gruppo pop e un collettivo di registi di Toronto che descrive il proprio stile come “punk-rock Pixar”. Il gruppo ha già sperimentato la tecnologia video generativa. L’anno scorso ha realizzato un video musicale per una delle sue canzoni utilizzando uno strumento open-source chiamato Stable Warpfusion. È bello, ma a bassa risoluzione e contiene glitch. Il filmato realizzato con Sora, intitolato “Air Head”, potrebbe passare per un filmato reale, se non avesse un uomo con un palloncino al posto del viso.
Un problema della maggior parte degli strumenti video generativi è che è difficile mantenere la coerenza tra i fotogrammi. Quando OpenAI ha chiesto a Shy Kids di provare Sora, il gruppo ha voluto vedere fino a che punto poteva spingersi. “Abbiamo pensato a un esperimento divertente e interessante: saremmo riusciti a creare un personaggio coerente?”, dice Walter Woodman, membro degli Shy Kids. “Pensiamo che sia stato per lo più un successo”.
I modelli generativi possono anche avere difficoltà con i dettagli anatomici come le mani e i volti. Ma nel video c’è una scena che mostra un vagone ferroviario pieno di passeggeri, e i volti sono quasi perfetti. “È incredibile quello che può fare”, dice Woodman. “Quei volti sul treno erano tutti di Sora”.
Il problema del video generativo con i volti e le mani è stato risolto? Non proprio. Si intravedono ancora parti del corpo deformate. E il testo è ancora un problema (in un altro video, realizzato dall’agenzia creativa Native Foreign, vediamo un’officina di riparazione di biciclette con l’insegna “Biycle Repaich”). Ma tutto in “Air Head” è un output grezzo di Sora. Dopo aver montato insieme molte clip diverse prodotte con lo strumento, Shy Kids ha effettuato una serie di post-processing per rendere il filmato ancora più bello. Hanno usato strumenti per gli effetti visivi per correggere alcune inquadrature della faccia a palloncino del protagonista, per esempio.
Woodman ritiene inoltre che la musica (scritta ed eseguita da loro) e la voce fuori campo (anch’essa scritta ed eseguita da loro) contribuiscano ad elevare ulteriormente la qualità del film. L’unione di questi tocchi umani con la produzione di Sora è ciò che fa sentire il film vivo, dice Woodman. “La tecnologia non è nulla senza di voi”, dice. “È uno strumento potente, ma voi siete la persona che lo guida”.
[Aggiornamento: Shy Kids ha pubblicato un video dietro le quinte di Air Head su X. Venite per i consigli dei professionisti, rimanete per i bloopers di Sora: “Come si fa a mantenere un personaggio e un aspetto coerente anche se Sora è una macchina mangiasoldi per quanto riguarda i risultati?”, chiede Woodman].
“Abstract” di Paul Trillo
Paul Trillo, artista e regista, ha voluto estendere le possibilità di Sora con l’aspetto di un film. Il suo video è un mash-up di filmati in stile retrò con riprese di una figura che si trasforma in una palla di glitter e di un uomo della spazzatura che balla la breakdance. Il regista afferma che tutto ciò che si vede è frutto del lavoro di Sora: “Nessuna correzione del colore o post FX”. Anche i tagli di montaggio nella prima parte del film sono stati prodotti utilizzando il modello generativo.
Trillo ha ritenuto che le dimostrazioni presentate da OpenAI il mese scorso somigliassero troppo a spezzoni di videogiochi. “Volevo vedere quali altre estetiche erano possibili”, dice. Il risultato è un video che sembra girato con una pellicola vintage da 16 millimetri. “Ci sono voluti molti esperimenti, ma ho trovato una serie di suggerimenti che aiutano a rendere il video più organico o cinematografico”, spiega.
“Beyond Our Reality” di Don Allen Stevenson
Don Allen Stevenson III è un regista e artista di effetti visivi. È stato uno degli artisti invitati da OpenAI a provare DALL-E 2, il suo modello testo-immagine, un paio di anni fa. Il film di Stevenson è un documentario naturalistico in stile NatGeo che ci presenta un serraglio di animali immaginari, dal girafflamingo al gatto anguilla.
Per molti versi, lavorare con il text-to-video è come lavorare con il text-to-image, dice Stevenson. “Si inserisce una richiesta di testo e poi la si modifica più volte”, dice Stevenson. Ma c’è un ulteriore ostacolo. Quando si provano diversi suggerimenti, Sora produce video a bassa risoluzione. Quando si trova qualcosa che piace, si può aumentare la risoluzione. Ma passare dalla bassa all’alta risoluzione comporta un altro ciclo di generazione e ciò che piaceva nella versione a bassa risoluzione può andare perso.
A volte l’angolo di ripresa è diverso o gli oggetti nell’inquadratura si sono spostati, dice Stevenson. L’allucinazione è ancora una caratteristica di Sora, come in ogni modello generativo. Con le immagini fisse questo può produrre strani difetti visivi; con il video questi difetti possono apparire anche nel tempo, con strani salti tra i fotogrammi.
Stevenson ha anche dovuto capire come parlare la lingua di Sora. Secondo Stevenson, Sora prende i suggerimenti molto alla lettera. In un esperimento ha cercato di creare un’inquadratura con zoom su un elicottero. Sora ha prodotto una clip in cui mescolava un elicottero con lo zoom di una telecamera. Ma Stevenson afferma che con molti suggerimenti creativi, Sora è più facile da controllare rispetto ai modelli precedenti.
Tuttavia, ritiene che le sorprese siano parte di ciò che rende la tecnologia divertente da usare: “Mi piace avere meno controllo. Mi piace il caos”, dice. Esistono molti altri strumenti di video-making che consentono di controllare il montaggio e gli effetti visivi. Per Stevenson, lo scopo di un modello generativo come Sora è quello di creare materiale strano e inaspettato con cui lavorare.
I filmati degli animali sono stati tutti generati con Sora. Stevenson ha provato molti suggerimenti diversi finché lo strumento non ha prodotto qualcosa che gli piaceva. “L’ho diretto, ma è più una spinta”, dice. Poi è andato avanti e indietro, provando delle variazioni.
Stevenson aveva immaginato che la sua volpe corvo avesse quattro zampe, per esempio. Ma Sora gliene ha date due, che funzionano ancora meglio. (Non è perfetto: gli spettatori più attenti vedranno che a un certo punto del video la volpe corvo passa da due zampe a quattro, e poi di nuovo a due). Sora ha anche prodotto diverse versioni che riteneva troppo inquietanti per essere utilizzate.
Quando ha ottenuto una collezione di animali che gli piacevano molto, li ha montati insieme. Poi ha aggiunto didascalie e una voce fuori campo. Stevenson avrebbe potuto creare il suo serraglio inventato con gli strumenti esistenti. Ma ci sarebbero volute ore, persino giorni, dice. Con Sora il processo è stato molto più rapido.
“Stavo cercando di pensare a qualcosa che fosse bello e ho sperimentato un sacco di personaggi diversi”, dice. “Ho tantissimi filmati di creature casuali”. Le cose sono andate bene quando ha visto quello che Sora ha fatto con il girafflamingo. “Ho iniziato a pensare: qual è la narrazione di questa creatura? Cosa mangia, dove vive?”, dice. Ha in programma di realizzare una serie di filmati estesi che seguano in modo più dettagliato ciascuno degli animali di fantasia.
Stevenson spera anche che i suoi animali fantastici siano più importanti. “Ci saranno molti nuovi tipi di contenuti che inonderanno i feed”, dice. “Come possiamo insegnare alle persone cosa è reale? Secondo me, un modo è quello di raccontare storie che sono chiaramente di fantasia”.
Stevenson sottolinea che il suo film potrebbe essere la prima volta in cui molte persone vedono un video creato da un modello generativo. Vuole che questa prima impressione sia molto chiara: questo non è reale.