L’IA può essere più equa di un giudice? Fate una prova con il nostro algoritmo

Il sistema giudiziario penale statunitense utilizza algoritmi predittivi per cercare di rendere il processo giudiziario meno distorto, ma il problema è più profondo.

di Karen Hao e Jonathan Stray

Da bambino, si inizia a capire velocemente cosa significa “equità”. È un concetto che si impara presto quando si fanno i conti con il mondo esterno. Qualcosa o sembra giusto o no.

Ma sempre più spesso gli algoritmi hanno iniziato ad assumersi questo compito al posto nostro. Decidono chi vede gli annunci immobiliari, chi viene assunto o licenziato e persino chi viene mandato in prigione. Di conseguenza, alle persone che li creano – gli ingegneri del software – viene chiesto di articolare cosa significhi essere equi nel loro codice. Questo è il motivo per cui le autorità di controllo di tutto il mondo stanno affrontando una domanda: come si può quantificare matematicamente l’equità?

Questo articolo tenta di offrire una risposta. E per farlo, abbiamo bisogno del vostro aiuto. Analizzeremo un vero algoritmo, uno usato per decidere chi viene mandato in prigione, e vi chiederemo di modificare i suoi parametri per rendere i suoi risultati più equi.
L’algoritmo che stiamo esaminando è noto come COMPAS ed è uno dei diversi strumenti di “valutazione del rischio” utilizzati nel sistema giudiziario penale statunitense.

Ad un livello elevato, COMPAS dovrebbe aiutare i giudici a stabilire se un imputato debba essere tenuto in prigione o rimanere libero in attesa del processo. Si allena sui dati dei fascicoli degli imputati per trovare correlazioni tra fattori come l’età e i rapporti intercorsi con il sistema giudiziario penale e se la persona è stata o meno arrestata più volte. Utilizza quindi le correlazioni per prevedere la probabilità che un imputato venga arrestato per un nuovo crimine durante il periodo di attesa del processo. (nota 1)

Questa previsione è nota come il “valutazione di rischio” dell’imputato ed è intesa come una raccomandazione: gli imputati “ad alto rischio” dovrebbero essere incarcerati per impedire loro di causare potenziali danni alla società; gli imputati “a basso rischio” dovrebbero essere rilasciati prima del processo (In realtà, i giudici non seguono sempre queste raccomandazioni, ma le valutazioni del rischio rimangono influenti).

I fautori degli strumenti di valutazione del rischio sostengono che questo meccanismo rende più equo il sistema giudiziario penale. Sostituiscono l’intuizione e il pregiudizio dei giudici, in particolare il pregiudizio razziale, con una valutazione apparentemente più “obiettiva”. Secondo loro, è possibile anche sostituire la pratica della libertà su cauzione negli Stati Uniti, che richiede agli imputati di pagare una somma di denaro per non andare subito in prigione. La cauzione discrimina gli americani poveri e colpisce in modo sproporzionato gli imputati neri, che sono sovrarappresentati nel sistema giudiziario penale.

Come richiesto dalla legge, COMPAS non include l’elemento della “razza” nel calcolo dei suoi punteggi di rischio. Nel 2016, tuttavia, un’indagine di ProPublica ha sostenuto che questo strumento è ancora parziale rispetto ai neri. ProPublica ha constatato che tra gli imputati che non sono mai stati arrestati una seconda volta, gli imputati neri avevano il doppio delle probabilità rispetto a quelli bianchi di essere etichettati ad alto rischio da COMPAS. (nota 2)

Quindi il nostro compito ora è cercare di migliorare COMPAS.

Cominciamo con lo stesso set di dati utilizzato da ProPublica nella sua analisi. Include tutti gli imputati presi in considerazione dall’algoritmo COMPAS nella contea di Broward, in Florida, dal 2013 al 2014. In totale, ci sono oltre 7.200 profili con il nome, l’età, la “razza” e il punteggio di rischio COMPAS di ciascuna persona, con una segnalazione se la persona è stata successivamente arrestata di nuovo dopo essere stata rilasciata o incarcerata prima del processo. Per semplificare la visualizzazione dei dati, abbiamo campionato a caso 500 imputati bianchi e neri dell’intero set.

Nella figura 1 abbiamo rappresentato ogni imputato come un punto.

Figura 1

Attenzione: tutti questi punti sono persone accusate (ma non condannate) di un crimine. Alcuni saranno incarcerati prima del processo; altri verranno rilasciati subito. Alcuni verranno riarrestati dopo il loro rilascio, altri no. Vogliamo confrontare due cose: le previsioni (punteggi di rischio “alto” rispetto a quelli “bassi”) e gli esiti nel mondo reale, vale a dire se gli imputati sono stati effettivamente arrestati di nuovo dopo essere stati rilasciati.

COMPAS attribuisce un punteggio agli imputati su una scala da 1 a 10, dove 1 corrisponde approssimativamente a una probabilità del 10 per cento di subire un nuovo arresto, il 2 al 20 per cento e così via.

Diamo un’occhiata ai punteggi di COMPAS.
(Figura 2)

Figura 2

Sebbene COMPAS possa offrire solo una probabilità statistica che un imputato venga riarrestato prima del processo, i giudici, ovviamente, devono prendere la decisione se rilasciare o trattenere l’imputato. Ai fini dell’articolo, useremo la soglia di “rischio elevato” di COMPAS, un punteggio di 7 o superiore, per indicare che un imputato deve essere mandato in prigione. (nota 3)

Da qui in poi, tocca a voi. La vostra missione è ridisegnare l’ultima fase di questo algoritmo trovando un modo più giusto per impostare la soglia di “rischio alto”.

Se vuoi modificare la soglia, sposta il cursore.
(Figura 3)

figura 3

Quindi, per prima cosa, immaginiamo lo scenario migliore: tutti gli imputati etichettati dal vostro algoritmo con un punteggio ad alto rischio vengono riarrestati e tutti gli imputati a basso rischio rimangono liberi. Di seguito, la nostra grafica mostra come potrebbe apparire. I punti pieni sono imputati che sono stati arrestati di nuovo; i punti vuoti sono quelli che non vengono riarrestati.

Ora sposta la soglia per rendere il tuo algoritmo il più equo possibile.
(Figura 4)

Figura 4

La soglia deve essere impostata tra 6 e 7, in modo che nessuno venga trattenuto inutilmente e non sia riarrestata neanche una delle persone lasciate libere. Ma ovviamente, questo scenario ideale non si verifica mai. È impossibile prevedere perfettamente il risultato per ogni persona. Ciò significa che i punti pieni e vuoti non possono essere separati così accuratamente.

Quindi ecco chi viene effettivamente riarrestato.

Ora sposta di nuovo la soglia per rendere il tuo algoritmo il più equo possibile.
(Figura 5)

Figura 5

Noterete che non importa dove posizionate la soglia, non è mai perfetta: si mettono sempre in prigione alcuni imputati che non vengono poi riarrestati (punti vuoti a destra della soglia) e si rilasciano alcuni imputati che vengono invece arrestati di nuovo (punti pieni a sinistra della soglia). Questo è un compromesso che il nostro sistema giudiziario penale ha sempre affrontato, e non è diverso quando si usa un algoritmo.

Per rendere più chiari questi compromessi, vediamo la percentuale di previsioni errate che COMPAS fa su ciascun lato della soglia, invece di misurare solo l’accuratezza complessiva. Ora saremo in grado di vedere esplicitamente se la nostra soglia favorisce inutilmente la permanenza di persone in prigione o il rilascio di persone che vengono poi riarrestate. Si noti che la soglia predefinita di COMPAS favorisce quest’ultima tendenza. (nota 4)

Come fare a trovare il giusto compromesso? Non esiste una risposta universale, ma nel 1760, il giudice inglese William Blackstone scrisse: “È meglio che dieci persone colpevoli siano libere rispetto alla prospettiva che un innocente soffra”. L’affermazione di Blackstone esercita ancora molta influenza nell’ambiente giudiziario degli Stati Uniti. Quindi rifacciamoci a questo principio.

Sposta la soglia al punto in cui la percentuale “rilasciato ma riarrestato” è circa 10 volte la percentuale “inutilmente incarcerato”.
(Figura 6)

Figura 6

Sono già evidenti due problemi che sorgono con l’utilizzo di un algoritmo come COMPAS. Il primo è che una migliore previsione può sempre aiutare a ridurre i tassi di errore su tutta la linea, ma non può mai eliminarli del tutto. Indipendentemente dalla quantità di dati che raccogliamo, due persone che sembrano uguali all’algoritmo possono sempre finire a fare scelte diverse.

Il secondo problema è che anche se si seguono costantemente le raccomandazioni di COMPAS, qualcuno, un essere umano, deve prima decidere dove deve trovarsi la soglia di “rischio elevato”, sia usando il rapporto di Blackstone o qualcos’altro. Questa scelta dipende da diversi tipi di considerazione: politiche, economiche e sociali.

Ma c’è anche un terzo problema. È qui che le nostre riflessioni sull’equità assumono un valore profondo. Come si confrontano i tassi di errore tra i diversi gruppi? Ci sono persone che hanno maggiori probabilità di essere inutilmente detenute?

Vediamo cosa ci dicono i dati quando prendiamo in considerazione la “razza” degli imputati.

Ora sposta la soglia per vedere in che modo l’appartenenza al gruppo di “bianchi” o “neri” influenza il destino degli imputati.
(Figura 7)

figura 7

La “razza” è un esempio di classe protetta negli Stati Uniti, il che significa che la discriminazione su tale base è illegale. Altre classi protette includono sesso, età e disabilità.

Ora che abbiamo separato gli imputati tra “bianchi” e “neri”, si scopre che anche se la “razza” non viene utilizzata per calcolare i punteggi di rischio COMPAS, questi ultimi hanno tassi di errore diversi per i due gruppi. Alla soglia COMPAS predefinita tra il 7 e l’8, il 16 per cento degli imputati neri che non vengono riarrestati è stato incarcerato inutilmente, mentre lo stesso vale per solo il 7 per cento degli imputati bianchi. Qualcosa non funziona! Questo è esattamente ciò che ProPublica ha evidenziato nelle sue indagini.

Sposta ogni soglia in modo che gli imputati bianchi e neri vengano mandati in prigione inutilmente con le stesse percentuali.
(Esistono diverse soluzioni. Ne abbiamo scelta una, ma puoi provare a trovarne altre).

(Figura 8)

Figura 8

Abbiamo cercato di rispettare il principio stabilito da Blackstone, quindi siamo arrivati alla seguente soluzione: gli imputati bianchi hanno una soglia tra 6 e 7, mentre gli imputati neri hanno una soglia tra 8 e 9. Ora circa il 9 per cento degli imputati bianchi e neri che non vengono riarrestati rimangono inutilmente in carcere, mentre il 75 per cento di quelli che fanno un reato vengono riarrestati dopo non essere stati in prigione. Il vostro algoritmo, ora, sembrerà molto più equo di COMPAS.

Ma forse ci è sfuggito qualcosa. Nel processo di abbinamento dei tassi di errore tra le “razze”, abbiamo perso un passaggio importante: le nostre soglie per ciascun gruppo sono attribuibili a luoghi diversi, quindi i nostri punteggi di rischio significano cose diverse per gli imputati bianchi e neri.

Gli imputati bianchi vengono incarcerati con un punteggio di rischio di 7, ma gli imputati neri vengono rilasciati con lo stesso punteggio. Ancora una volta, non sembra giusto. Due persone con lo stesso punteggio di rischio hanno la stessa probabilità di essere arrestati di nuovo, quindi non dovrebbero ricevere lo stesso trattamento? Negli Stati Uniti, l’uso di soglie diverse per le diverse “razze” può anche sollevare complicate questioni legali, in particolare in riferimento al quattordicesimo emendamento, la clausola di uguale protezione della Costituzione.

Quindi proviamo ancora una volta con un’unica soglia condivisa tra entrambi i gruppi.

Sposta di nuovo la soglia in modo che gli imputati bianchi e neri vengano incarcerati inutilmente con le stesse percentuali.
(Figura 9)

Figura 9

Se vi sentite frustrati, ci sono buone ragioni. Non c’è soluzione.

Vi abbiamo fornito due definizioni di equità: mantenere i tassi di errore comparabili tra i gruppi e trattare le persone con gli stessi punteggi di rischio allo stesso modo. Entrambe queste definizioni sono legittime, ma soddisfare entrambe allo stesso tempo è impossibile.

Il motivo è che gli imputati bianchi e neri vengono riarrestati con ritmi diversi. Mentre il 52 per cento degli imputati neri è stato arrestato nuovamente nei dati della contea di Broward, solo il 39 per cento degli imputati bianchi ha subito questa sorte. Esiste una differenza simile in molte giurisdizioni negli Stati Uniti, in parte a causa della storia del paese in cui la polizia ha preso di mira in modo sproporzionato le minoranze.

Le previsioni riflettono i dati utilizzati per farle, indipendentemente dall’algoritmo. Se gli imputati neri vengono arrestati a un tasso più elevato rispetto agli imputati bianchi nel mondo reale, avranno anche un tasso più elevato quando si formula una previsione sulle probabilità di essere arrestati. Ciò significa che avranno anche punteggi di rischio più alti in media e una percentuale maggiore di essi sarà etichettata ad alto rischio. Ciò è vero indipendentemente dall’algoritmo utilizzato.

Questo strano conflitto di definizioni di equità non si limita solo agli algoritmi di valutazione del rischio nel sistema giudiziario penale. Lo stesso tipo di paradossi vale per gli algoritmi di valutazione del credito, delle assicurazioni e delle domande di lavoro. In qualsiasi contesto in cui un sistema decisionale automatizzato debba allocare risorse o punizioni tra più gruppi con esiti diversi, le diverse definizioni di equità entreranno inevitabilmente in conflitto.

Non esiste un algoritmo che possa risolvere questo problema. I giudici umani si comportano allo stesso modo e lo hanno già fatto nel corso della storia.

Ma ecco cosa è cambiato con l’algoritmo. Sebbene i giudici non siano sempre trasparenti su come scelgono tra diverse nozioni di equità, le persone possono contestare le loro decisioni. Al contrario, COMPAS, prodotto dalla azienda privata Northpointe, è un segreto commerciale che non può essere rivisto o interrogato pubblicamente. Gli imputati non possono più mettere in discussione i suoi risultati e le agenzie governative perdono la capacità di controllare il processo decisionale. Non c’è più responsabilità pubblica.

Quindi cosa dovrebbero fare gli enti regolatori? L’Algorithmic Accountability Act proposto nel 2019 è un esempio di un buon inizio, afferma Andrew Selbst, professore di diritto dell’Università della California, specializzato in IA. Il disegno di legge, che mira a regolare la distorsione nei sistemi decisionali automatizzati, presenta due importanti caratteristiche che fungono da modello per la legislazione futura.

In primo luogo, richiede alle aziende di controllare i propri sistemi di apprendimento automatico per evitare errori e discriminazioni in una “valutazione di impatto”. In secondo luogo, non specifica una definizione di equità.

“Con una valutazione dell’impatto, l’azienda è trasparente sul modo in cui sta affrontando la questione dell’equità”, afferma Selbst. Ciò riporta la responsabilità pubblica nel dibattito. Perché “equità significa cose diverse in contesti diversi”.

Ma se gli algoritmi debbano essere usati per stabilire l’equità è una domanda complessa. Gli algoritmi di apprendimento automatico sono formati su “dati prodotti attraverso storie di esclusione e discriminazione”, scrive Ruha Benjamin, professore associato della Princeton University, nel suo libro Race After Technology. Gli strumenti di valutazione del rischio non sono diversi. La domanda più grande sul loro uso – o su qualsiasi algoritmo utilizzato per classificare le persone – è se riducono le disuguaglianze esistenti o peggiorano le cose.

Selbst raccomanda di procedere con cautela: “Ogni volta che trasformi le nozioni filosofiche di equità in espressioni matematiche, perdono la loro sfumatura, la loro flessibilità, la loro malleabilità”, egli spiega. “Questo non vuol dire che non vale la pena di migliorare i sistemi. I miei dubbi vogliono favorire una consapevolezza dei vantaggi e degli svantaggi dell’adozione di una tecnologia”.

Note
1Arresti contro condanne
Questo meccanismo è imperfetto. Gli algoritmi usano gli arresti come “sinonimo” di crimine, ma in realtà ci sono grandi discrepanze tra i due perché gli arresti colpiscono soprattutto le minoranze razziali e i dati sono spesso manipolati. I nuovi arresti, inoltre, sono spesso effettuati per violazioni tecniche, come la mancata comparizione in tribunale, e non per altri reati. In questa storia, semplifichiamo per esaminare cosa accadrebbe se gli arresti corrispondessero a crimini reali.

2La metodologia di ProPublica
Per gli imputati che sono stati incarcerati prima del processo, ProPublica ha verificato se fossero stati arrestati nuovamente entro due anni dal loro rilascio. Ha poi usato questo indice per capire approssimativamente se gli imputati sarebbero stati arrestati di nuovo prima del processo se non fossero stati incarcerati.

3I punteggi di COMPAS
COMPAS è stato progettato per fare previsioni aggregate su gruppi di persone che condividono caratteristiche simili, e non per previsioni su individui specifici. La metodologia alla base dei suoi punteggi e le raccomandazioni su come usarli sono più complicate di quanto avessimo spazio per presentare.

4. Definizioni tecniche
Queste due percentuali di errore sono anche conosciute come “tasso di falsi negativi” (che abbiamo etichettato “rilasciato ma riarrestato”) e “tasso di falsi positivi” (che abbiamo etichettato “inutilmente incarcerato”).

Immagine: Selman Design

(rp)

Related Posts
Total
0
Share