Ci si può fidare dei software per i colloqui di lavoro?

In un test effettuato da “MIT Technology Review”, uno dei sistemi artificiali di intervista ha dato alla nostra candidata un punteggio elevato per la conoscenza dell'inglese mentre parlava solo in tedesco.

Dopo più di un anno dalla pandemia di covid-19, milioni di persone cercano lavoro negli Stati Uniti. Il software per interviste basato sull'intelligenza artificiale afferma di aiutare i datori di lavoro a vagliare le applicazioni per trovare le persone migliori. Le aziende specializzate in questa tecnologia hanno riportato un aumento del giro di affari durante la pandemia.

Ma con l'incremento della domanda di queste tecnologie, diventa più pressante valutare la loro precisione e affidabilità. Nel podcast di “MIT Technology Review” In Machines We Trust abbiamo testato il software di due aziende specializzate in colloqui di lavoro con l'AI, MyInterview e Curious Thing, trovando variazioni nelle previsioni e nei punteggi di corrispondenza dei lavori che sollevano preoccupazioni su cosa stanno valutando esattamente questi algoritmi.

Imparare a conoscere una persona

MyInterview misura le caratteristiche considerate nel Big Five Personality Test, una valutazione psicometrica spesso utilizzata nel processo di assunzione. Questi tratti includono apertura, coscienziosità, estroversione, grado di empatia e stabilità emotiva. Curious Thing misura anche i tratti legati alla personalità, ma invece dei Big Five, i candidati vengono valutati su altri parametri, come l'umiltà e la resilienza.

Gli algoritmi analizzano le risposte dei candidati per determinare i tratti della personalità. MyInterview compila anche punteggi che indicano quanto un candidato corrisponda alle caratteristiche identificate dai responsabili delle assunzioni come ideali per la posizione. Per completare i nostri test, abbiamo prima impostato il software. Abbiamo caricato un falso annuncio di lavoro per un amministratore d'ufficio su MyInterview e su Curious Thing. Quindi abbiamo costruito il nostro candidato ideale scegliendo tratti legati alla personalità, come richiesto dal sistema. (Si veda figura 2)

Su MyInterview, abbiamo prescelto caratteristiche come l'attenzione ai dettagli e le abbiamo classificate per livello di importanza. Abbiamo anche selezionato le domande del colloquio, che vengono visualizzate sullo schermo mentre il candidato registra le risposte video. In Curious Thing, abbiamo privilegiato caratteristiche come l'umiltà, l'adattabilità e la resilienza.

Una di noi, Hilke, ha fatto domanda per la posizione e ha completato le interviste per il ruolo sia in MyInterview che in Curious Thing. La nostra candidata ha svolto un colloquio telefonico con Curious Thing. Prima ha fatto un regolare colloquio di lavoro e ha ricevuto un punteggio di 8,5 su 9 per la competenza in inglese. In un secondo incontro, l'intervistatore automatizzato ha posto le stesse domande e lei ha risposto a ciascuna leggendo la voce di Wikipedia per la psicometria in tedesco. Curious Thing le ha assegnato comunque un 6 su 9 per la competenza in inglese. Ha fatto di nuovo l'intervista e ha ricevuto lo stesso punteggio. (Si veda figura 3)

La nostra candidata si è rivolta a MyInterview e ha ripetuto l'esperimento. Ha letto la stessa voce di Wikipedia ad alta voce in tedesco. L'algoritmo non solo ha restituito una valutazione della personalità, ma ha anche determinato che la nostra candidata corrispondesse al 73 per cento alle caratteristiche previste per il lavoro, inserendola nella metà superiore di tutti i candidati a cui era stato chiesto di candidarsi.

MyInterview fornisce ai responsabili delle assunzioni una trascrizione delle loro interviste. Quando abbiamo esaminato la trascrizione della nostra candidata, abbiamo scoperto che il sistema interpretava le sue parole tedesche come parole inglesi (si veda video). Ma la trascrizione non aveva alcun senso. Le prime righe, che corrispondono alla risposta fornita sopra, recitano:

“Così l'umidità è scrivania un beat-up. Sociologia, vuol ferro? Estratta nematode materiale adatto. Luogo sicuro, mesoni la prima metà di gamma le loro fortune a IMD ed effetti a lungo su di passaggio lungo di Eurasia e Z questa posizione particolare mesoni".

Un sistema approssimativo

Invece di valutare la nostra candidata sul contenuto delle sue risposte, l'algoritmo ha estratto i tratti della personalità dalla sua voce, afferma Clayton Donnelly, uno psicologo aziendale che lavora con MyInterview. Ma l'intonazione non è un indicatore affidabile dei tratti della personalità, afferma Fred Oswald, professore di psicologia organizzativa industriale alla Rice University. "Non possiamo davvero usare l'intonazione come requisito per l'assunzione", dice. "Semplicemente non sembra né affidabile né particolarmente significativo".

L'uso di domande aperte per determinare i tratti della personalità pone anche sfide significative, anche quando, o forse soprattutto quando, il processo è automatizzato. Ecco perché molti test della personalità, come i Big Five, offrono alle persone opzioni tra cui scegliere. "Il punto fondamentale è che la personalità è difficile da valutare con un sistema aperto", dice Oswald. “Ci sono opportunità per l'intelligenza artificiale o gli algoritmi e modalità di domande più strutturate e standardizzate. Ma non penso che i dati permettano di venire a capo del problema”.

Il cofondatore e chief technology officer di Curious Thing, Han Xu, ha risposto alle nostre critiche in una e-mail, dicendo: "Questa è la prima volta che il nostro sistema viene testato in tedesco, quindi i dati raccolti sono estremamente preziosi per la nostra ricerca”.

Il paradosso del pregiudizio

Le prestazioni nelle interviste basate sull'intelligenza artificiale spesso non sono l'unico parametro utilizzato dai potenziali datori di lavoro per valutare un candidato. E questi sistemi possono effettivamente ridurre i pregiudizi e trovare candidati migliori rispetto agli intervistatori umani. 

Ma molti di questi strumenti non sono testati in modo indipendente e le aziende che li hanno creati sono riluttanti a condividere i dettagli su come funzionano, rendendo difficile per i candidati e per i datori di lavoro sapere se gli algoritmi sono accurati o quale influenza dovrebbero avere sulla decisione di assumere.

Mark Gray, che lavora presso una piattaforma di gestione immobiliare danese chiamata Proper, ha iniziato a utilizzare le interviste video con l’AI quando lavorava con l’azienda di elettronica Airtame. Dice di aver originariamente incorporato il software, prodotto da un'azienda tedesca chiamata Retorio, nelle interviste per aiutare a ridurre il pregiudizio umano che spesso si sviluppa quando i responsabili delle assunzioni parlano con i candidati.

Anche se Gray non basa le decisioni di assunzione esclusivamente sulla valutazione di Retorio, che attinge anche ai requisiti dei Big Five, ne tiene conto nella scelta dei candidati. "Non credo che sia una pallottola d'argento per capire come assumere la persona giusta", spiega.

Il consueto processo di assunzione di Gray include una chiamata di screening e un colloquio con Retorio, a cui invita la maggior parte dei candidati a partecipare indipendentemente dall'impressione che hanno fatto durante lo screening. I candidati prescelti affronteranno quindi un test di abilità lavorative, seguito da un colloquio dal vivo con altri membri del team.

"Con il tempo, ogni azienda dovrebbe utilizzare prodotti come Retorio perché offrono tante informazioni", afferma Gray. "Mentre ci sono alcuni punti interrogativi e controversie nella sfera dell'AI in generale, penso che la domanda più grande sia se questi strumenti sono in grado di valutare un carattere".

Gray riconosce la validità delle critiche agli strumenti di colloqui con l'AI. Una ricerca pubblicata a febbraio dalla bavarese Public Broadcasting ha scoperto che l'algoritmo di Retorio valuta i candidati in modo diverso a seconda dello sfondo e degli accessori, per esempio gli occhiali, durante l'intervista.

Il co-fondatore e amministratore delegato di Retorio, Christoph Hohenberger, afferma che l'azienda non sostiene che il suo software sia il fattore decisivo nell'assunzione dei candidati. “Siamo uno strumento di assistenza da utilizzare insieme a operatori umani. Non è un filtro automatico", afferma.

Tuttavia, la posta in gioco è così alta per le persone in cerca di lavoro che sicuramente è necessaria una maggiore cautela. Per la maggior parte di loro un lavoro è cruciale per la propria sopravvivenza economica.

Link per ascoltare tutti i podcast.

(rp)
  • Figura 2: la schermata mostra il punteggio di corrispondenza della nostra candidata e l'analisi della personalità su MyInterview, dopo aver risposto a tutte le domande dell'intervista in tedesco anziché in inglese. Hilke Schellmann
  • Figura 3: lo screenshot mostra il punteggio di competenza in inglese della nostra candidata nel software di Curious Thing dopo aver risposto a tutte le domande in tedesco. Hilke Schellmann