Gli algoritmi per decidere le assunzioni alla prova dei revisori

Le valutazioni indipendenti mostrano che i sistemi informatizzati per scegliere chi lavora sono soggetti a pregiudizi e non selezionano necessariamente la persona migliore.

di Hilke Schellmann

Sono a casa a giocare a un videogioco sul mio computer. Il mio lavoro è gonfiare un pallone alla volta e guadagnare più soldi possibile. Ogni volta che faccio clic su “Gonfia”, il pallone si gonfia e ricevo cinque centesimi virtuali. Ma se non riesco a farlo prima di premere “Raccogli”, tutti i miei guadagni digitali scompaiono. Dopo aver riempito 39 palloncini, ho guadagnato 14,40 dollari. Sullo schermo viene visualizzato un messaggio: “Attenersi a un approccio coerente in situazioni ad alto rischio”.

Questo gioco fa parte di una serie realizzata da Pymetrics che molte grandi aziende statunitensi utilizzano per selezionare i candidati al lavoro. Se si fa domanda a McDonald’s, Boston Consulting Group, Kraft Heinz o Colgate-Palmolive, potrebbe capitare di trovarsi di fronte ai giochi di Pymetrics.

Mentre si gioca, il sistema di intelligenza artificiale misura tratti tra cui generosità, correttezza e attenzione. Se dovessi effettivamente candidarmi per una posizione lavorativa, il sistema confronterebbe i miei punteggi con quelli dei dipendenti che già svolgono quell’attività. Se il mio profilo di personalità riflettesse i tratti più specifici delle persone che hanno successo nel ruolo, avanzerei alla fase di assunzione successiva.

Sempre più aziende utilizzano questi strumenti basati sull’intelligenza artificiale per gestire il flusso di domande che ricevono, soprattutto ora che è raddoppiato il numero dei senza lavoro negli Stati Uniti rispetto a prima della pandemia. Un sondaggio condotto da Mercer, una società di gestione patrimoniale su oltre 7.300 responsabili delle risorse umane in tutto il mondo, ha rilevato che la percentuale che utilizza l’analisi predittiva è passata dal 10 per cento nel 2016 al 39 per cento nel 2020.

Come con altre applicazioni di intelligenza artificiale, tuttavia, i ricercatori hanno scoperto che alcuni strumenti di assunzione producono risultati distorti, favorendo inavvertitamente uomini o persone provenienti da determinati contesti socioeconomici. Molti ora chiedono maggiore trasparenza e maggiore regolamentazione. Una soluzione in particolare viene proposta da più parti: gli audit di AI.

L’anno scorso, Pymetrics ha pagato un team di scienziati informatici della Northeastern University per verificare il suo algoritmo di assunzione. È stata una delle prime volte in cui un’azienda del genere ha richiesto una verifica da parte di terzi del proprio strumento. L’amministratore delegato Frida Polli mi ha detto che pensava che l’esperienza potesse essere un modello in conformità con una proposta di legge che richiede tali controlli per le aziende di New York City, dove ha sede Pymetrics.

Coinvolgere una terza parte neutrale per l’audit è davvero una buona direzione verso cui muoversi”, afferma Pauline Kim, professore di diritto della Washington University di St. Louis, che ha esperienza in diritto del lavoro e intelligenza artificiale. “Se riescono a spingere il settore a essere più trasparente, è un passo avanti davvero positivo”. Nonostante tutta l’attenzione che hanno ricevuto gli audit di AI, la loro capacità di rilevare e proteggere effettivamente dai pregiudizi rimane non dimostrata. 

Il termine “audit di AI” può significare molte cose diverse, il che rende difficile fidarsi dei risultati in generale. Gli audit più rigorosi possono ancora essere di portata limitata. E anche con l’accesso illimitato alle parti interne di un algoritmo, può essere sorprendentemente difficile dire con certezza se tratta i candidati in modo equo. Nella migliore delle ipotesi, gli audit forniscono un quadro incompleto e, nel peggiore dei casi, potrebbero aiutare le aziende a nascondere pratiche problematiche o controverse dietro il timbro di approvazione di un revisore.

All’interno di un audit di AI

Molti tipi di strumenti di assunzione di intelligenza artificiale sono già in uso oggi. Includono software che analizzano le espressioni facciali, il tono e il linguaggio di un candidato durante le interviste video, nonché programmi che scansionano curriculum, prevedono il tipo di personalità o indagano sull’attività sui social media di un candidato.

Indipendentemente dal tipo di strumento che vendono, le aziende fornitrici promettono che queste tecnologie troveranno i candidati più qualificati a costi inferiori e in meno tempo rispetto ai tradizionali dipartimenti delle risorse umane. Tuttavia, ci sono pochissime prove che lo facciano, e in ogni caso non è quello che è stato valutato dall’audit di AI dell’algoritmo di Pymetrics, che voleva stabilire se un particolare strumento di assunzione discrimina grossolanamente i candidati sulla base della razza o del sesso.

Stills of Pymetrics è una suite di 12 giochi basati sull’intelligenza artificiale che ha lo scopo di distinguere le caratteristiche sociali, cognitivi ed emotivi di un candidato.Pymetrics

Christo Wilson della Northeastern aveva già esaminato gli algoritmi in precedenza, compresi quelli che determinano l’aumento dei prezzi di Uber e il motore di ricerca di Google. Ma fino a quando Pymetrics non lo ha chiamato, non aveva mai lavorato direttamente con un’azienda su cui stava indagando. Il team di Wilson, che comprendeva il suo collega Alan Mislove e due studenti laureati, si è basato sui dati di Pymetrics e ha collaborato con i data scientist dell’azienda. I revisori erano indipendenti dal punto di vista editoriale, ma hanno accettato di notificare a Pymetrics qualsiasi risultato negativo prima della pubblicazione. L’azienda ha pagato alla Northeastern 104.465 dollari tramite una sovvenzione, inclusi 64.813 dollari destinati agli stipendi di Wilson e del suo team.

Il prodotto principale di Pymetrics è una suite di 12 giochi che sembrano principalmente basati su esperimenti di scienza cognitiva. Nei giochi non si vince o perde, ma si cerca di discernere gli attributi cognitivi, sociali ed emotivi di un candidato, tra cui la tolleranza al rischio e la capacità di apprendimento. Pymetrics commercializza il suo software come “completamente privo di pregiudizi”. Pymetrics e Wilson hanno deciso che i revisori si sarebbero concentrati su una domanda specifica: i modelli dell’azienda sono giusti?

Hanno basato la definizione di equità su quella che è comunemente nota come regola dei quattro quinti, che è diventata uno standard di assunzione informale negli Stati Uniti. La Commissione per le pari opportunità di lavoro (EEOC, Equal Employment Opportunity Commission) ha pubblicato le linee guida nel 1978 affermando che le procedure di assunzione dovrebbero selezionare all’incirca la stessa proporzione di uomini e donne e di persone di diversi gruppi etnici. Secondo la regola dei quattro quinti, spiega Kim, “se il 100 per cento degli uomini passa alla fase successiva del processo di assunzione, le donne devono attestarsi sull’80 per cento”.

Se gli strumenti di assunzione di un’azienda violano la regola dei quattro quinti, l’EEOC potrebbe effettuare controlli. “Se i datori di lavoro si assicurano che questi strumenti non siano gravemente discriminatori, con ogni probabilità non attireranno l’attenzione dei regolatori federali”, spiega Kim. Per capire se il software di Pymetrics non discrimina, il team di Northeastern ha dovuto prima cercare di capire come funziona lo strumento.

Un nuovo cliente che utilizza Pymetrics, deve selezionare almeno 50 dipendenti che hanno avuto successo nel ruolo che desidera ricoprire. Questi dipendenti giocano ai giochi di Pymetrics per generare dati di allenamento. Successivamente, il sistema di Pymetrics confronta i dati di questi 50 dipendenti con i dati di gioco di oltre 10.000 persone selezionate a caso tra oltre due milioni. Il sistema costruisce quindi un modello che identifica e classifica le competenze più specifiche per i dipendenti di successo del cliente.

Per verificare la presenza di pregiudizi, Pymetrics esegue questo modello su un altro set di dati di circa 12.000 persone (selezionate casualmente su oltre 500.000) che non solo hanno sperimentato i giochi, ma hanno anche comunicato i propri dati demografici in un sondaggio. L’idea è di determinare se il modello supererebbe il test dei quattro quinti valutando queste 12.000 persone.

Christo Wilson della Northeastern University.Simon Simard

Se il sistema rileva un pregiudizio, costruisce e testa più modelli finché non ne trova uno che sia predittivo del successo e produca all’incirca le stesse percentuali di superamento per uomini e donne e per i membri di tutti i gruppi etnici. In teoria, quindi, anche se la maggior parte dei dipendenti di successo di un cliente sono uomini bianchi, Pymetrics può correggere i pregiudizi confrontando i dati di gioco di quegli uomini con i dati di donne e persone di altri gruppi etnici. Ciò che sta cercando sono i punti dati che prevedono tratti non correlati all’etnia o al sesso, ma distinguono solo i dipendenti di successo.

Wilson e il suo team di auditor volevano capire se il meccanismo anti-bias di Pymetrics effettivamente prevenga i pregiudizi e se possa essere ingannato. Per fare ciò, fondamentalmente hanno cercato di ingannare il sistema, per esempio duplicando i dati di gioco dello stesso uomo bianco molte volte e cercando di usarli per costruire un modello. Il risultato è stato sempre lo stesso: “Il modo in cui il loro codice è strutturato e il modo in cui i data scientist utilizzano lo strumento, non permetteva di produrre qualcosa che fosse di parte”, afferma Wilson.

Lo scorso autunno, i revisori hanno condiviso le loro conclusioni con l’azienda: il sistema Pymetrics soddisfa la regola dei quattro quinti. Il team di Northeastern ha recentemente pubblicato lo studio dell’algoritmo online e presenterà un rapporto sul lavoro a marzo alla conferenza sulla responsabilità algoritmica FAccT. “Il grande vantaggio è che Pymetrics sta effettivamente facendo un ottimo lavoro”, afferma Wilson.

Una soluzione imperfetta

Ma, anche se il software di Pymetrics soddisfa la regola dei quattro quinti, l’audit non ha dimostrato che lo strumento sia privo di pregiudizi di sorta, né che in realtà scelga i candidati più qualificati per qualsiasi lavoro. “Sembrava effettivamente che la domanda che veniva posta fosse più del tipo “Pymetrics sta facendo quello che dice di fare?” e non “Stanno facendo la cosa giusta?”, dice Manish Raghavan, uno studente di dottorato in informatica alla Cornell University, esperto di intelligenza artificiale e sistemi di assunzioni.

Per esempio, la regola dei quattro quinti richiede solo che persone di sesso ed etnie diverse passino alla fase successiva del processo di assunzione. Uno strumento di assunzione di intelligenza artificiale potrebbe soddisfare tale requisito ed essere ancora estremamente incoerente nel prevedere quanto bene le persone di diversi gruppi riescano effettivamente nel lavoro una volta assunte. E se uno strumento prevede il successo in modo più accurato per gli uomini rispetto alle donne, per esempio, ciò significherebbe che non sta effettivamente identificando le donne più qualificate, quindi le donne che vengono assunte “potrebbero non avere lo stesso successo sul lavoro”, dice Kim.

Un altro problema che né la regola dei quattro quinti né l’audit di Pymetrics affrontano è l’intersezionalità. La regola confronta gli uomini con le donne e un gruppo etnico con un altro per vedere se vengono trattati allo stesso modo, ma non confronta, per esempio, uomini bianchi con uomini asiatici o donne nere. “Si potrebbe verificare che un software soddisfi la regola dei quattro quinti tra uomini e donne, neri e bianchi, ma potrebbe mascherare un pregiudizio contro le donne nere”, dice Kim.

Pymetrics non è l’unica azienda che ha controllato la propria intelligenza artificiale. HireVue, un altro grande fornitore di software per l’assunzione, ha fatto valutare uno dei suoi algoritmi da O’Neil Risk Consulting and Algorithmic Auditing (ORCAA), una società di proprietà di Cathy O’Neil, una data scientist e autrice di Weapons of Math Destruction, uno dei libri più importanti e popolari sui pregiudizi dell’AI.

ORCAA e HireVue hanno concentrato il loro audit su un prodotto: i sistemi di valutazioni delle assunzioni di HireVue, che molte aziende utilizzano per decidere se assumere un neolaureato. In questo caso, ORCAA non ha valutato il design tecnico dello strumento stesso, ma ha intervistato le parti interessate (tra cui un candidato al lavoro, un esperto di intelligenza artificiale e diverse organizzazioni non profit) sui potenziali problemi con gli strumenti e ha fornito raccomandazioni a HireVue per migliorarli. Il rapporto finale è pubblicato sul sito web di HireVue ma può essere letto solo dopo aver firmato un accordo di non divulgazione.

Alex Engler, un collega della Brookings Institution che ha studiato strumenti di assunzione di intelligenza artificiale e che ha familiarità con entrambi gli audit, ritiene che Pymetrics sia il migliore: “C’è una grande differenza nella profondità dell’analisi”, egli dice. Ma ancora una volta, nessuno dei due audit ha valutato se i prodotti aiutassero davvero le aziende a fare scelte di assunzione migliori. Entrambi sono stati finanziati dalle aziende sottoposte ad audit, il che crea “un piccolo rischio che il revisore venga influenzato dal fatto che si tratta di un cliente”, afferma Kim.

Per questi motivi, dicono i critici, gli audit volontari non sono sufficienti. I data scientist e i revisori stanno ora spingendo per una regolamentazione più ampia degli strumenti di assunzione basati sull’AI, nonché per gli standard per controllarli.

Colmare le lacune

Alcune di queste misure stanno iniziando a comparire negli Stati Uniti. Nel 2019, i senatori Cory Booker e Ron Wyden e il rappresentante Yvette Clarke hanno introdotto l’Algorithmic Accountability Act, ancora non ratificato,  per rendere obbligatori i controlli sui pregiudizi per tutte le grandi aziende che utilizzano l’AI.

Nel frattempo, c’è qualche movimento a livello statale. L’AI Video Interview Act, in Illinois, entrato in vigore nel gennaio 2020, richiede alle aziende di informare i candidati quando viene usata l’AI nelle interviste video. Anche le città stanno agendo. A novembre, a Los Angeles, il membro del consiglio comunale Joe Buscaino ha presentato una mozione per l’equità nei sistemi automatizzati di assunzione.

Il disegno di legge di New York City, in particolare, potrebbe servire da modello per città e stati a livello nazionale. Renderebbe obbligatori gli audit annuali per i fornitori di strumenti di assunzione automatizzati e richiederebbe alle aziende che utilizzano questi strumenti di comunicare ai richiedenti quali caratteristiche il loro sistema ha utilizzato per prendere una decisione.

Ma la questione di come sarebbero effettivamente questi audit annuali rimane aperta. Per molti esperti, un audit sulla falsariga di ciò che ha fatto Pymetrics non andrebbe molto lontano nel determinare se questi sistemi discriminano, dal momento che l’audit non ha verificato l’intersezionalità o valutato la capacità dello strumento di misurare accuratamente i tratti che afferma di valutare per persone di etnie e sessi diversi.

Molti critici, inoltre, vorrebbero che l’auditing fosse svolto dal governo invece che da aziende private, per evitare conflitti di interesse. “Dovrebbe esserci una regolamentazione preventiva in modo che prima di utilizzare uno qualsiasi di questi sistemi, la Commissione per le pari opportunità di lavoro dovrebbe esaminarlo e quindi concederlo in licenza”, afferma Frank Pasquale, professore alla Brooklyn Law School ed esperto di responsabilità algoritmica, che ha in mente un processo di pre-approvazione per gli strumenti di assunzione algoritmica simile a quello che la Food and Drug Administration utilizza con i farmaci.

Finora, l’EEOC non ha nemmeno emesso linee guida chiare sugli algoritmi di assunzione che sono già in uso. Ma le cose potrebbero iniziare a cambiare presto. A dicembre, 10 senatori hanno inviato una lettera all’EEOC chiedendo se avesse l’autorità per iniziare a vigilare sui sistemi di assunzione di AI per prevenire la discriminazione contro le persone di colore, che sono già state colpite in modo sproporzionato dalla perdita di posti di lavoro durante la pandemia.

Immagine : Simon Simard

(rp)

Related Posts
Total
0
Share