I nostri dati al servizio del razzismo sistematico

Gli esperti di tecnologie devono assumersi la responsabilità delle ideologie tossiche che vengono trasmesse sulla base dalle modalità di addestramento dei sistemi di algoritmi, penalizzanti per le minoranze.

di Deborah Raji

Mi è stato spesso detto: “I dati non mentono”. Tuttavia, questa non è mai stata la mia esperienza. Per me, i dati mentono quasi sempre. I risultati della ricerca di immagini di Google per “pelle sana” mostrano solo donne dalla pelle chiara e una query sulle “ragazze nere” le avvicina al mondo della pornografia. Il set di dati sui volti di CelebAha etichette di “naso grande” e “labbra grandi” che sono assegnate in modo sproporzionato a volti femminili dalla pelle più scura come il mio. I modelli formati da ImageNet mi etichettano come una “persona cattiva”, una “tossicodipendente” o una “fallita”. Nei set di dati per la rilevazione del cancro della pelle mancano campioni di tipi di pelle più scura

La supremazia bianca appare spesso in modo violento in sparatorie in un affollato Walmart o durante una messa, o nelle false accuse alimentate dall’odio o ancora in una spinta violenta per strada, ma a volte assume una forma più sottile, come queste bugie. Quelli di noi che costruiscono sistemi di intelligenza artificiale e continuano a consentire che la palese menzogna della supremazia bianca sia incorporata in tutto, dal modo in cui raccogliamo i dati a come ne definiamo i set e come scegliamo di usarli, esercitano una forma di tolleranza che desta seri dubbi.

I non bianchi non sono valori anomali. A livello globale, siamo la norma e la situazione non sembra destinata a cambiare tanto presto. I set di dati così specificamente costruiti non rispecchiano la realtà. 

I dati non sono affidabili

In un documento di ricerca intitolato Dirty Data, Bad Predictions, l’autrice principale Rashida Richardson descrive uno scenario allarmante: i distretti di polizia sospettati o confermati di essere coinvolti in pratiche “corrotte, a sfondo razziale o altrimenti illegali” continuano a contribuire con i loro dati allo sviluppo di nuovi sistemi automatizzati destinati ad aiutare ad assumere decisioni ufficiali. 

L’obiettivo degli strumenti di polizia predittiva è inviare agenti sulla scena di un crimine prima che accada. Il presupposto è che i luoghi in cui le persone sono state precedentemente arrestate siano correlati alla probabilità di future attività illegali. Ciò che Richardson sottolinea è che questa ipotesi rimane indiscussa anche quando quegli arresti iniziali erano motivati da considerazioni di tipo razziale o erano illegali, con a volte”manipolazione sistemica dei dati, corruzione della polizia, falsificazione dei rapporti della polizia e violenza, inclusi rapina ai residenti, manomissione delle prove, estorsione, perquisizioni incostituzionali, e altre pratiche subdole”. Anche i dati dei dipartimenti di polizia che hanno tenuto comportamenti riprovevoli vengono utilizzati per  fornire informazioni agli strumenti di polizia predittiva. 

Come riporta il “Tampa Bay Times”, questo approccio può fornire una “giustificazione algoritmica” per ulteriori molestie da parte della polizia nei confronti delle minoranze e delle comunità a basso reddito. L’utilizzo di tali dati difettosi per addestrare nuovi sistemi incorpora la cattiva condotta documentata del dipartimento di polizia nell’algoritmo e perpetua pratiche già note per terrorizzare le persone più vulnerabili a tale abuso.

Non si tratta di un descrizione di parte di una serie di situazioni tragiche, ma della norma nell’apprendimento automatico: questa è la qualità tipica dei dati che attualmente accettiamo come la nostra indiscussa “verità fondamentale”. 

Un giorno GPT-2, una precedente versione disponibile al pubblico del modello di generazione automatica di linguaggio sviluppato dall’organizzazione di ricerca OpenAI, iniziò a parlarmi apertamente dei “diritti dei bianchi”. Dati semplici suggerimenti come “un uomo bianco è” o “una donna nera è”, il testo generato dal modello si lanciava in dissertazioni su “nazioni ariane bianche” e “invasori stranieri e non bianchi”. 

Non solo questi interventi includevano insulti orribili come “cagna”, “sgualdrina”, “negro”, “muso giallo” e “occhi a mandorla”, ma il testo generato incarnava una specifica retorica nazionalista bianca americana, descrivendo “minacce demografiche” e virando verso l’antisemitismo. GPT-2 non pensa da solo: genera risposte replicando i modelli linguistici osservati nei dati utilizzati per sviluppare il modello. 

Questo set di dati, denominato WebText, contiene “oltre 8 milioni di documenti per un totale di 40 GB di testo” provenienti da collegamenti ipertestuali. Questi collegamenti sono stati selezionati dai post più votati del sito web dei social media Reddit, come “un indicatore euristico per sapere se gli altri utenti hanno trovato il collegamento interessante, educativo o semplicemente divertente”. 

Tuttavia, gli utenti di Reddit, inclusi quelli che pubblicano e votano, sono noti per la presenza di suprematisti bianchi. Per anni, la piattaforma ha ospitato posizioni razziste e ha consentito collegamenti a contenuti che esprimevano ideologie razziste. E sebbene ci siano opzioni pratiche disponibili per frenare questo comportamento sulla piattaforma, i primi seri tentativi di agire da parte dell’allora CEO Ellen Pao nel 2015, sono stati scarsamente accolti dalla comunità e hanno portato a decise reazioni

Che si tratti di poliziotti ribelli o utenti ribelli, i tecnologi scelgono di consentire a questa particolare visione oppressiva del mondo di solidificarsi in set di dati e definire la natura dei modelli che sviluppiamo. La stessa OpenAI ha riconosciuto i limiti del reperimento di dati da Reddit, osservando che “molti gruppi ai limiti della legalità utilizzano questi forum di discussione per organizzarsi“. 

Tuttavia, l’organizzazione ha continuato a utilizzare il set di dati di Reddit anche nelle versioni successive del suo modello linguistico. La natura pericolosamente imperfetta delle fonti di dati viene effettivamente ignorata per comodità, nonostante le conseguenze. Non è necessaria la volontà di manipolazione per aprire la strada ai mestatori, ma basta una passività di fondo. 

Piccole bugie bianche

La supremazia bianca è la falsa convinzione che gli individui bianchi siano superiori a quelli delle altre razze. Non è un semplice malinteso, ma un’ideologia radicata nell’inganno. La razza è il primo mito, la superiorità quello immediatamente successivo. I fautori di questa ideologia si aggrappano ostinatamente a un’invenzione che li metta in una condizione di privilegio

Ho sentito toni blandi quando si parla di “guerra alla droga”, “epidemia di oppiacei”, “salute mentale” e “videogiochi” per le azioni violente dei bianchi, mentre si parla di “pigrizia” e “criminalità” per le vittime non bianche. Noto come vengono cancellate quelle del mio colore e mi appare invece una sfilata infinita di facce chiare che mi circondano nei film, sulle copertine delle riviste e alle premiazioni.

Questa ombra segue ogni mio movimento, un brivido fastidioso sulla nuca. Quando sento “omicidio”, non vedo solo l‘agente di polizia con il ginocchio sulla gola o il vigilante con una pistola, ma l’economia che ci strangola, le malattie che ci indeboliscono e il governo che ci zittisce.

Vorrei capire: qual è la differenza tra la presenza ossessiva della polizia nei quartieri dove vivono le minoranza e il pregiudizio dell’algoritmo che la manda lì? Qual è la differenza tra un sistema scolastico segregato e un algoritmo di valutazione discriminatorio? Cosa distingue un medico che non ascolta e un algoritmo che nega un letto d’ospedale? Non c’è razzismo sistematico separato dalla rete nascosta di implementazioni algoritmiche che prende di mira regolarmente coloro che sono già più vulnerabili.

Resistere al determinismo tecnologico

La tecnologia non è indipendente da noi, ma è creata da noi e ne abbiamo il controllo completo. I dati non sono solo arbitrari, ma esistono politiche di disinformazione alle quali i data scientist consentono con noncuranza di infiltrarsi nei nostri set di dati. La supremazia bianca è una di queste. Non esiste un approccio neutrale. I dati saranno sempre un’interpretazione soggettiva della realtà di qualcuno, una selezione di priorità. 

Questo potere è detenuto dai responsabili della selezione e della progettazione di questi dati e dello sviluppo dei modelli che interpretano le informazioni. Quelli di noi che costruiscono questi sistemi sceglieranno quali subreddit e fonti online sottoporre a scansionequali lingue utilizzare o ignorarequali set di dati rimuovere o accettare. Ancora più importante, si selezionano modi di applicazione, obiettivi, data scientist, ingegneri e ricercatori. Ci sono responsabilità precise dietro alla progettazione della tecnologia scelta. 

Allora perché non si può prestare maggiore attenzione a questi sistemi? Quando diventerà abituale rivelare la provenienza dei dati, l’eliminazione di set di dati problematici e la definizione dei limiti nell’ambito di ogni modello? Quando si interverrà su chi opera con un’agenda ispirata esplicitamente alla supremazia bianca e si intraprenderanno azioni serie per l’inclusione?

Il cammino è ancora incerto

Distratti da soluzioni tecniche astratte e da articolate teorie sociali, ho visto colleghi congratularsi con se stessi per progressi invisibili. In definitiva, li invidio, perché io non riesco a non preoccuparmi.  Mentre i neri ora muoiono in una cacofonia di disastri naturali e innaturali, molti dei miei colleghi sono più galvanizzati dall’ultimo prodotto o lancio spaziale che dall’orrore stridente di una realtà che mi soffoca il fiato.

I modelli non riescono a superare i pregiudizi ma vengono celebrati come avanzati, mentre le persone abbastanza coraggiose da parlare apertamente del rischio vengono messe a tacere o peggio. C’è un chiaro compiacimento culturale che non suona particolarmente sorprendente in un campo in cui la stragrande maggioranza non capisce la posta in gioco.

Il fatto è che l’IA non funzionerà finché non sarà egualitaria. Se speriamo di affrontare mai l’ingiustizia razziale, dobbiamo smetterla di presentare i nostri dati distorti come “verità di base”. Non esiste un mondo razionale e giusto in cui le modalità di assunzione escludano sistematicamente le donne dai ruoli tecnici o in cui le auto a guida autonoma abbiano maggiori probabilità di colpire i pedoni con la pelle più scura

La comunità dell’apprendimento automatico continua ad accettare un certo livello di disfunzione fintanto che solo determinati gruppi sono interessati. Ciò richiede un cambiamento consapevole e lo stesso impegno di qualsiasi altra lotta contro l’oppressione sistematica. Dopotutto, le bugie incorporate nei nostri dati non sono molto diverse da qualsiasi altra bugia raccontata dai sostenitori della supremazia bianca. Richiederanno quindi altrettanta energia e investimenti per modificare la situazione.

Deborah Raji è una borsista di Mozilla che si occupa di auditing e valutazione algoritmica. Ha lavorato a diversi progetti pluripremiati per evidenziare pregiudizi nella visione artificiale e migliorare i sistemi di documentazione nell’apprendimento automatico.

Immagine: Ms Tech

Related Posts
Total
0
Share