Skip to main content

Milioni di foto caricate online vengono utilizzate ogni giorno senza permesso per addestrare sistemi di riconoscimento facciale.

di Karen Hao

La NBC ha recentemente pubblicato un articolo intitolato: “Facial recognition’s ‘dirty little secret’: Millions of online photos scraped without consent” (Il piccolo, sporco segreto del riconoscimento facciale: Milioni di foto prese online senza consenso). Ne abbiamo già parlato, ma vale la pena rivedere il problema.

La questione è incentrata attorno a un data set, recentemente condiviso da IBM con 1 milione di immagini di volti, pensato per assistere i ricercatori nell’addestramento di sistemi di riconoscimento facciale più equi (ho scritto anche dei pregiudizi di questi sistemi). A quanto pare, NBC ha scoperto che queste immagini sono state raccolte direttamente dal sito Flickr senza il consenso dei soggetti raffigurati o dei loro fotografi.

Per alcuni di voi, questa pratica sembrerà immediatamente strana e inquietante. Per altri, sembrerà perfettamente normale. L’articolo della NBC non mette tanto in mostra un “piccolo, sporco segreto”, quanto il divario culturale che separa la comunità che ruota attorno alle IA dal resto del pubblico.

Per chi opera all’interno dell’industria, IBM non ha fatto nulla di insolito. I ricercatori nel campo dell’IA raccolgono incessantemente dati da varie fonti in rete per nutrire i loro famelici algoritmi di apprendimento automatico. Le foto caricate su Instagram, ad esempio, sono una comune fonte di dati per questi algoritmi; gli hashtag corrispondono spesso e convenientemente con i contenuti delle foto, rendendo la classificazione dei dati un processo ancor più semplice. Articoli del New York Times e del Wall Street Journal rappresentano una ulteriore fonte comune di dati relativi frasi ben composte e editate. Il fatto che siano suddivisi per argomento facilita ulteriormente il lavoro dei ricercatori.

Di fatto, il reperimento di dati da fonti pubblicamente disponibili è una pratica tanto comune da figurare persino fra le nozioni di base che vengono insegnate nei corsi di data science e apprendimento automatico. Nel frattempo, la maggior parte delle piattaforme tech sono configurate per incentivare questo genere di raccolta offrendo API con accesso diretto ai loro dati. Fino a poco tempo fa, questa pratica veniva eseguita senza alcun ripensamento (vedi Facebook).

Non è che raccogliere dati dalla rete sia giusto o sbagliato. Esistono diverse soluzioni per raccoglierli in maniera legittima e innocua (vedi
We analyzed 16,625 papers to figure out where AI is headed next”); tutto dipende dalla situazione. La questione fondamentale è che l’industria tech dovrebbe adattare le proprie regole culturali e pratiche standard alla rapida evoluzione del contesto tecnologico, oltre che alla consapevolezza del pubblico sul consumo dei dati.

“Oggi esistono modi di utilizzare i nostri dati di cui non eravamo al corrente cinque o dieci anni fa”, spiega Rumman Chowdhury, guida mondiale all’utilizzo responsabile dei sistemi di IA presso Accenture Applied Intelligence. “Come potremmo aver acconsentito a una possibilità che all’epoca non esisteva?”

In altre parole, un tempo poteva risultare corretto raccogliere dati delle persone fintanto che questi venivano condivisi pubblicamente online; l’avvento dell’IA e la portata senza precedenti del monopolio e della monetizzazione dei dati da parte della Silicon Valley hanno ormai cambiato le cose. I tecnologi hanno il dovere di cambiare a loro volta per assicurarsi che vi sia un ampio e consapevole consenso sociale sulle loro pratiche.

Il consiglio Chowdhury a chi fatica a districarsi dalle aree scoperte della privacy dei dati? Pensare se l’uso che fanno dei dati corrisponde con lo spirito con cui questi sono stati originariamente prodotti e condivisi. Se i dati vengono utilizzati per fini completamente differenti, è tempo di prendersi un attimo di pausa e riconsiderare le proprie procedure.

(MO)