• MIT Technology Review / Envato

Facebook vuole una forma di AI che veda il mondo con i nostri occhi

Un nuovo enorme set di dati video aiuterà a formare assistenti intelligenti e robot, ma ci sono ovvie preoccupazioni su come verrà utilizzata la tecnologia da parte di un'azienda che non ha brillato in passato per il rispetto della privacy.

di Will Douglas Heaven 15-10-21
Oggi, diamo per scontato che le macchine possano riconoscere ciò che vedono in foto e video. Questa capacità si basa su grandi set di dati come ImageNet, una raccolta curata a mano di milioni di foto utilizzate per addestrare la maggior parte dei migliori modelli di riconoscimento delle immagini dell'ultimo decennio.

Ma le immagini in questi set di dati ritraggono un mondo di oggetti curati, una galleria di immagini che non riflette il disordine della vita quotidiana così come lo sperimentano gli umani. Fare in modo che le macchine vedano le cose come noi significherà un approccio completamente nuovo. E il laboratorio di intelligenza artificiale di Facebook vuole essere all’avanguardia.

L’azienda sta dando il via a un progetto, chiamato Ego4D, per costruire forme di AI in grado di comprendere scene e attività viste da una prospettiva in prima persona, vale a dire come le cose appaiono alle persone direttamente coinvolte. Si pensi, per esempio, alle riprese sfocate con le videocamere GoPro effettuate nel bel mezzo di una azione di gioco, invece di scene ben inquadrate scattate da qualcuno esterno.

Facebook vuole che Ego4D faccia per i video in prima persona quello che ImageNet ha fatto per le foto. Negli ultimi due anni, Facebook AI Research (FAIR) ha lavorato con 13 università di tutto il mondo per assemblare il più grande set di dati mai visto di video in prima persona, in particolare per addestrare modelli di riconoscimento delle immagini di deep learning.

Le AI addestrate sul set di dati saranno più abili nel controllare i robot che interagiscono con le persone o nell'interpretare le immagini degli occhiali intelligenti. "Le macchine saranno in grado di aiutarci nella nostra vita quotidiana solo se comprendono veramente il mondo attraverso i nostri occhi", afferma Kristen Grauman di FAIR, che guida il progetto.

Tale tecnologia potrebbe supportare le persone che hanno bisogno di assistenza in casa o aiutare le persone nelle attività che hanno difficoltà a portare avanti. "Il video in questo set di dati è molto più vicino al modo in cui gli umani osservano il mondo", afferma Michael Ryoo, ricercatore di visione artificiale di Google Brain e Stony Brook University di New York, che non è coinvolto in Ego4D.

Ma i potenziali abusi sono chiari e preoccupanti. La ricerca è finanziata da Facebook, un gigante dei social media che è stato recentemente accusato dal Senato degli Stati Uniti di mettere i profitti al di sopra del benessere delle persone, come confermato dalle indagini di “MIT Technology Review”.

Il modello di business di Facebook e di altre aziende Big Tech consiste nell'estrarre quanti più dati possibile dal comportamento online delle persone e venderli agli inserzionisti. L'intelligenza artificiale delineata nel progetto potrebbe estendere tale portata al comportamento offline quotidiano delle persone, rivelando cosa c’è nella casa dell’utente, quali attività preferisce, con chi ha trascorso del tempo e persino dove si è soffermato lo sguardo: un livello di informazioni personali senza precedenti.

"C'è del lavoro sulla privacy che deve essere fatto quando questa ricerca si trasforma in un prodotto", afferma Grauman. Il più grande set di dati precedenti di video in prima persona è costituito da 100 ore di riprese di persone in cucina. Il set di dati Ego4D è composto da 3.025 ore di video registrati da 855 persone in 73 località diverse in nove paesi (Stati Uniti, Regno Unito, India, Giappone, Italia, Singapore, Arabia Saudita, Colombia e Ruanda).

I partecipanti avevano età e background diversi. Alcuni sono stati reclutati per le loro occupazioni interessanti dal punto di vista dell’immagine, come panettieri, meccanici, carpentieri e paesaggisti. I set di dati precedenti in genere consistevano in clip video della durata di pochi secondi.

Per Ego4D, i partecipanti hanno indossato telecamere montate sulla testa per un massimo di 10 ore alla volta e hanno catturato video in prima persona di attività quotidiane senza copione, tra cui camminare lungo una strada, leggere, fare il bucato, fare shopping, interagire con animali domestici, giocare a giochi da tavolo e intrattenersi con altre persone. Parte del filmato include anche audio e dati su dove era focalizzato lo sguardo dei partecipanti, con più prospettive sulla stessa scena. È il primo set di dati di questo tipo, afferma Ryoo.

FAIR ha anche lanciato una serie di sfide che spera indirizzeranno le iniziative di altri ricercatori verso lo sviluppo di questo tipo di intelligenza artificiale. Il team prevede algoritmi integrati negli occhiali intelligenti, come i Ray-Ban recentemente annunciati da Facebook, che registrano la vita quotidiana di chi li indossa.

Ciò significa che le app di realtà aumentata o virtuale che fanno riferimento al metaverso potrebbero, in teoria, rispondere a domande come "Dove sono le chiavi della mia macchina?" o "Cosa ho mangiato e vicino a chi mi sono seduto durante il mio primo volo per la Francia?" Gli assistenti di realtà aumentata potrebbero capire cosa si sta cercando di fare e offrire istruzioni o utili spunti sociali.

È roba da fantascienza, ma più vicina di quanto pensi, dice Grauman. Grandi set di dati accelerano la ricerca. "ImageNet ha permesso grandi progressi in breve tempo", afferma. "Possiamo aspettarci lo stesso per Ego4D, ma per le visioni del mondo in prima persona più che per le immagini di Internet".

I lavoratori in crowdsourcing in Ruanda hanno trascorso un totale di 250.000 ore guardando le migliaia di videoclip e scrivendo milioni di frasi che descrivono le scene e le attività filmate. Queste annotazioni verranno utilizzate per addestrare le AI a capire cosa stanno guardando.

Resta da vedere quanto velocemente questa tecnologia si svilupperà. FAIR parla di giugno del 2022. È anche importante notare che FAIR, il laboratorio di ricerca, non è lo stesso di Facebook, il megalodonte dei media. In effetti, gli addetti ai lavori affermano che Facebook ha ignorato le correzioni tecniche che FAIR ha elaborato per i suoi algoritmi tossici. Ma il colosso aziendale sta pagando per la ricerca, ed è ipocrita fingere che non sia interessata alla sua applicazione.

Sam Gregory di Witness, un'organizzazione per i diritti umani specializzata in tecnologia video, afferma che questa tecnologia potrebbe essere utile per documentare proteste o abusi della polizia. Ma pensa che questi vantaggi siano superati dalle preoccupazioni relative alle applicazioni commerciali. Fa notare che è possibile identificare gli individui dal modo in cui impugnano una videocamera. I dati sullo sguardo sarebbero ancora più rivelatori: “Come verranno archiviati i dati dello sguardo? A chi saranno accessibili?”.

"La reputazione e il modello di business principale di Facebook suonano molti campanelli d'allarme", afferma Rory Mir della Electronic Frontier Foundation. "In molti sono consapevoli della scarsa attenzione di Facebook alla privacy e dell’uso di sistemi di sorveglianza per influenzare gli utenti, sia per mantenere gli utenti agganciati sia per favorire gli inserzionisti". A suo parere, quando si tratta di realtà aumentata e virtuale, Facebook è alla ricerca di un vantaggio competitivo.

Alla domanda sui suoi piani, Facebook ha risposto a denti stretti: "Ego4D è puramente ricerca per promuovere i progressi nella più ampia comunità scientifica", afferma un portavoce. "Oggi non abbiamo nulla da condividere sulle applicazioni dei prodotti o sull'uso commerciale".

(rp)
  • I modelli di visione computerizzata funzionano bene con la prospettiva in terza persona (a sinistra), ma non con quella in prima persona (a destra). Facebook