Skip to main content
XIAOICE (LEFT AND RIGHT); SILICON INTELLIGENCE (CENTER)

Con pochi minuti di video campione e 1.000 dollari, i brand non smettono mai di vendere i loro prodotti.

Scorrendo i video in live streaming alle 4 del mattino su Taobao, la piattaforma di e-commerce più popolare della Cina, si scopre che è stranamente affollata. Mentre la maggior parte delle persone dorme profondamente, ci sono ancora molti streamer diligenti che presentano prodotti alle telecamere e offrono sconti nelle ore piccole.

Ma se si guarda più da vicino, si può notare che molti di questi influencer in live streaming sembrano leggermente robotici. Il movimento delle labbra corrisponde in gran parte a ciò che dicono, ma ci sono sempre momenti in cui sembra innaturale.

Questi streamer non sono reali: sono cloni dei veri streamer generati dall’intelligenza artificiale. Man mano che le tecnologie che creano avatar, voci e movimenti realistici diventano sempre più sofisticati e accessibili. La popolarità di questi deepfake è esplosa sulle piattaforme di streaming dell’e-commerce cinese.

Oggi il live streaming è il canale di marketing dominante per i marchi tradizionali e digitali in Cina. Gli influencer su Taobao, Douyin, Kuaishou o altre piattaforme possono concludere importanti affari in poche ore. I nomi più importanti possono vendere beni per oltre un miliardo di dollari in una sola notte, guadagnando royalty proprio come le grandi star del cinema. Ma allo stesso tempo, la formazione dei conduttori di live streaming, il loro mantenimento e la gestione dei dettagli tecnici della trasmissione comportano un costo significativo per i marchi più piccoli. È molto più economico automatizzare il lavoro.

Dal 2022, molte startup cinesi e grandi aziende tecnologiche offrono il servizio di creazione di avatar deepfake per l’e-commerce live streaming. Con pochi minuti di video campione e 1.000 dollari di costi, i brand possono clonare uno streamer umano per lavorare 24 ore su 24, 7 giorni su 7.

Dal deepfake all’e-commerce

I media artificiali hanno fatto notizia sin dalla fine degli anni 2010, in particolare quando un utente di Reddit chiamato “deepfake” ha scambiato i volti nella pornografia. Da allora, la tecnologia si è evoluta, ma l’idea è la stessa: con alcuni strumenti tecnici, i volti possono essere generati o manipolati per assomigliare a specifici esseri umani reali e fare cose che le persone reali non ha mai fatto.

La tecnologia è stata conosciuta soprattutto per il suo uso illegale nel revenge porn, nei furti di identità e nella disinformazione politica. Anche se ci sono stati tentativi di commercializzarla in modi più innocui, è sempre rimasta una novità. Ma ora le aziende cinesi di intelligenza artificiale hanno trovato un nuovo caso d’uso che sembra andare piuttosto bene.

Fondata nel 2017, la startup Silicon Intelligence con sede a Nanchino è specializzata nell’elaborazione del linguaggio naturale, in particolare nelle tecnologie text-to-speech come gli strumenti di robocall. Ma Sima Huapeng, il suo fondatore e CEO, afferma che la sua azienda ha iniziato a vedere il potenziale dell’AI come strumento di live streaming nel 2020.

All’epoca, Silicon Intelligence aveva bisogno di 30 minuti di video di addestramento per generare un clone digitale in grado di parlare e agire come un essere umano. L’anno successivo erano necessari 10 minuti, poi tre e oggi basta un solo minuto di video.

Con il miglioramento della tecnologia, anche il servizio è diventato più economico. Generare un clone AI di base costa oggi al cliente circa 8.000 RMB (1.100 dollari). Se il cliente vuole creare uno streamer più complicato e capace, il prezzo può salire a diverse migliaia di dollari. Oltre alla generazione, il prezzo copre anche un anno di manutenzione.

Video di uno streamer AI generato da Silicon Intelligence.
SILICON INTELLIGENCE

Una volta generato l’avatar, la sua bocca e il suo corpo si muovono a tempo con l’audio programmato. Mentre un tempo i copioni erano pre-scritti da esseri umani, le aziende stanno ora utilizzando modelli linguistici di grandi dimensioni per generare anche questi.

Ora, tutto ciò che gli operatori umani devono fare è inserire le informazioni di base, come il nome e il prezzo del prodotto venduto, correggere il testo generato e guardare l’influencer digitale in diretta. Una versione più avanzata della tecnologia è in grado di individuare i commenti in diretta e di trovare le risposte corrispondenti nel suo database per rispondere in tempo reale, in modo che sembri che l’AI streamer stia comunicando attivamente con il pubblico. Secondo Sima, può anche adattare la sua strategia di marketing in base al numero di spettatori.

Questi cloni dell’intelligenza artificiale per i live streaming sono addestrati in base ai gesti e ai copioni comuni visti nei video di e-commerce, spiega Huang Wei, direttore dell’attività di live streaming degli influencer virtuali presso l’azienda cinese di intelligenza artificiale Xiaoice. L’azienda dispone di un database di quasi un centinaio di movimenti predefiniti.

“Ad esempio, quando gli streamer umani dicono ‘Benvenuti nel mio canale. Muovete le dita e premete il pulsante Segui’, stanno sicuramente puntando il dito verso l’alto, perché è lì che si trova il pulsante Segui sullo schermo della maggior parte delle app di livestream per dispositivi mobili”, spiega Huang. Allo stesso modo, quando gli streamer presentano un nuovo prodotto, puntano verso il basso, verso il carrello della spesa, dove gli spettatori possono trovare tutti i prodotti. Gli streamer AI di Xiaoice replicano tutti questi trucchi comuni. “Vogliamo assicurarci che il linguaggio parlato e il linguaggio del corpo corrispondano. Non vogliamo che parli del pulsante Segui mentre batte le mani. Sarebbe strano”, spiega.

Nata dal Microsoft Software Technology Center Asia nel 2020, Xiaoice si è sempre concentrata sulla creazione di un’intelligenza artificiale più simile a quella umana, in particolare di avatar in grado di mostrare emozioni. “Per la maggior parte dei clienti i siti di e-commerce tradizionali sembrano solo uno scaffale di merci. Sono freddi. Nel live streaming, c’è una maggiore connessione emotiva tra il conduttore e gli spettatori e si possono presentare meglio i prodotti”, afferma Huang.

Dopo un’esperienza pilota con alcuni clienti l’anno scorso, quest’anno Xiaoice ha lanciato ufficialmente il suo servizio di generazione di cloni digitali da meno di 1.000 dollari; come Silicon Intelligence, Xiaoice ha bisogno solo di streamer umani che forniscano un video di un minuto di loro stessi.

E come i suoi concorrenti, i clienti di Xiaoice possono spendere di più per perfezionare i dettagli. Ad esempio, Liu Jianhong, un annunciatore sportivo cinese, ha realizzato un clone di se stesso durante la Coppa del Mondo FIFA 2022 per leggere i risultati delle partite e altre notizie rilevanti su Douyin.

Clone AI di Liu Jianhong annuncia le notizie sulla Coppa del Mondo.

Un sostituto economico per le stelle filanti umane

Secondo Huang, questi streamer generati non saranno in grado di battere le star dell’e-commerce, ma sono abbastanza bravi da sostituire quelli di medio livello. I creatori umani, compresi quelli che hanno usato i loro video per addestrare i cloni dell’intelligenza artificiale, stanno già sentendo in qualche modo la pressione dei loro rivali digitali. Quest’anno è più difficile trovare lavoro come conduttore di diretta streaming per l’e-commerce e lo stipendio medio dei conduttori di live streaming in Cina è sceso del 20% rispetto al 2022, secondo la società di analisi iiMedia Research.

Ma la possibilità per le aziende di integrare il lavoro umano mantenendo la diretta streaming durante le ore in cui meno persone lo guardano, significa che è difficile giustificare il costo dell’assunzione di veri streamer.

Questo sta già accadendo. Nelle ore successive alla mezzanotte, molti dei canali di streaming su piattaforme di e-commerce popolari come Taobao e JD presentano questi streamer generati dall’intelligenza artificiale.

Esempi precedenti hanno dimostrato che le tecnologie deepfake non hanno bisogno di essere perfette per ingannare gli spettatori. Nel 2020, un truffatore si è spacciato per un famoso attore cinese con l’ausilio di rozzi strumenti di face-swap ed è riuscito comunque a ottenere migliaia di dollari da ignare donne che si sono innamorate dei suoi video.

“Se un’azienda assume 10 host di live streaming, i loro livelli di competenza varieranno. Forse due o tre streamer in cima contribuirebbero al 70%-80% del fatturato totale”, afferma Chen Dan, amministratore delegato di Quantum Planet AI, un’azienda che confeziona tecnologie come quelle di Xiaoice e le vende alle aziende. “Un host virtuale di live streaming può sostituire gli altri – sei o sette streamer che contribuiscono meno e hanno tassi di ROI (ritorno sull’investimento) inferiori. E i costi si ridurrebbero in modo significativo”.

Chen afferma di aver riscontrato quest’anno un maggiore interesse da parte dei marchi nei confronti degli streamer di intelligenza artificiale, in parte perché tutti cercano “降本增效”- cioè abbassare i costi e migliorare l’efficienza, la nuova parola d’ordine tra le aziende tecnologiche cinesi a causa del rallentamento dell’economia nazionale.

Chen ha oltre 100 clienti che utilizzano il servizio di Xiaoice e questi streamer virtuali hanno intermediato milioni di dollari in vendite. Uno streamer di Xiaoice ha portato oltre 10.000 RMB (1.370 dollari) di entrate in una sola ora.

Se la diretta è incentrata su un singolo prodotto, lo streamer AI di Xiaoice è in grado di interagire con esso davanti alla telecamera.
XIAOICE

Ci sono ancora degli svantaggi, dice. Ad esempio, molti dei suoi clienti sono marchi di arredamento e, sebbene l’intelligenza artificiale sia abbastanza intelligente da parlare e usare i gesti, non può sedersi su un divano o sdraiarsi su un letto, quindi le dirette non hanno l’attrattiva degli utenti reali che testano i prodotti.

Oltre a startup più piccole come Silicon Intelligence e Xiaoice, i principali operatori tecnologici stanno testando i live streaming generati dall’intelligenza artificiale. Alibaba, Tencent, Baidu e JD hanno lanciato quest’anno alcune varianti degli stessi servizi, consentendo ai marchi sulle loro piattaforme di generare i propri streamer AI.

Anche le aziende di marketing che impiegano un gran numero di streamer umani hanno notato la tendenza. Foshan Yowant Technology, una delle principali agenzie di marketing live streaming, ha annunciato una collaborazione strategica con Xiaoice; anche Silicon Intelligence ha creato una joint venture con l’azienda dietro Viya, l’ex “regina del live streaming” cinese.

La crescente popolarità delle dirette streaming generate dall’intelligenza artificiale ha attirato anche l’attenzione di piattaforme video come Douyin, la versione cinese di TikTok, anche se sta adottando un approccio diverso rispetto agli altri giganti tecnologici. Sembra più attenta alla trasparenza e in un documento di maggio ha dichiarato che tutti i video generati dall’intelligenza artificiale devono essere segnalati chiaramente sulla piattaforma e che gli influencer virtuali devono essere gestiti da esseri umani reali. La piattaforma ha sempre vietato l’uso di video registrati come diretta streaming. I live streaming generati dall’IA, senza riprese registrate ma anche con pochi contributi umani in tempo reale, si collocano a cavallo di questa regola.

Negli ultimi due anni il governo cinese ha emanato diverse leggi sui media artificiali e sull’IA generativa, che si applicherebbero all’uso nello streaming dell’e-commerce. Ma gli effetti delle normative governative e delle piattaforme sono ancora da vedere, perché la tecnologia è ancora troppo nuova per essere applicata seriamente.

Il prossimo passo di Silicon Intelligence sarà quello di aggiungere “intelligenza emotiva” agli streamer dell’IA, dice Sima: “Se ci sono commenti offensivi, sarà triste; se i prodotti vendono bene, sarà felice”. L’azienda sta anche lavorando per far sì che gli streamer AI interagiscano e imparino gli uni dagli altri.

Fin dall’inizio, l’azienda si è posta un obiettivo affascinante e in un certo senso terrificante: vuole creare “100.000.000 di lavoratori artificiali” entro il 2025. Per ora, dice Sima, l’azienda ha generato 400.000 streamer virtuali. La strada da percorrere è ancora lunga.

Foto di copertina: XIAOICE (A SINISTRA E A DESTRA); SILICON INTELLIGENCE (AL CENTRO)