Per definire meglio il termine, dovremmo spostare l’attenzione dalla fase di progettazione di questi sistemi a quella del loro impatto.
di Kristian Lum e Rumman Chowdhury
Descrivere un sistema decisionale come un “algoritmo” è spesso un modo per sviare la responsabilità per le decisioni umane. Per molti, il termine implica un insieme di regole basate oggettivamente su dati o prove empiriche. Suggerisce anche un sistema che è molto complesso, forse così complesso che un essere umano farebbe fatica a comprenderne il funzionamento interno o ad anticiparne il comportamento quando dispiegato.
Ma questa descrizione è accurata? Non sempre.
Per esempio, a fine dicembre l’errata allocazione dei vaccini covid-19 da parte dello Stanford Medical Center è stata attribuita a un “algoritmo” di distribuzione che ha favorito gli amministratori di alto rango rispetto ai medici in prima linea. L’ospedale ha affermato di essersi consultato con esperti di etica per progettare il suo “algoritmo molto complesso”, che un rappresentante ha detto “chiaramente non funzionava bene”, come riportato all’epoca da “MIT Technology Review”.
Mentre molte persone hanno interpretato l’uso del termine per indicare che era coinvolta l’intelligenza artificiale o l’apprendimento automatico, il sistema era in realtà un algoritmo medico, che è funzionalmente diverso. Era più simile a una formula molto semplice o a un albero decisionale progettato da un team umano.
Questa mancanza di accuratezza evidenzia un problema crescente. Man mano che i modelli predittivi proliferano, il pubblico diventa più diffidente nei confronti del loro utilizzo nel prendere decisioni critiche. Ma quando i responsabili politici iniziano a sviluppare standard per la valutazione o l’audit degli algoritmi, devono prima definire la classe di strumenti decisionali o di supporto decisionale a cui si applicheranno le loro politiche.
Lasciare il termine “algoritmo” aperto all’interpretazione potrebbe collocare alcuni dei modelli con il maggiore impatto al di fuori della portata delle politiche progettate per garantire che tali sistemi non danneggino le persone.
Come identificare un algoritmo
Quindi l ‘”algoritmo” di Stanford è un algoritmo? Dipende da come si valuta il termine. Anche se non esiste una definizione universalmente accettata, un’interpretazione diffusa è presente in un libro di testo del 1971 scritto dallo scienziato informatico Harold Stone, che afferma: “Un algoritmo è un insieme di regole che definiscono precisamente una sequenza di operazioni”. Questa definizione comprende tutto, dalle ricette alle reti neurali complesse: una politica di audit basata su di essa avrebbe una scarsa credibilità.
In statistica e con l’apprendimento automatico, di solito pensiamo all’algoritmo come l’insieme di istruzioni che un computer esegue per apprendere dai dati. In questi campi, le informazioni strutturate risultanti sono generalmente chiamate modello. Le informazioni che il computer apprende dai dati tramite l’algoritmo possono apparire come “pesi” per moltiplicare ogni fattore di input, oppure possono essere molto più complicate.
Anche la complessità dell’algoritmo stesso può variare. E gli impatti di questi algoritmi dipendono in ultima analisi dai dati a cui vengono applicati e dal contesto in cui viene distribuito il modello risultante. Lo stesso algoritmo potrebbe avere un impatto positivo netto se applicato in un contesto e un effetto molto diverso se applicato in un altro.
In altri domini, ciò che è descritto sopra come modello è esso stesso chiamato algoritmo. Sebbene sia fonte di confusione, nella definizione più ampia è anche accurato: i modelli sono regole (apprese dall’algoritmo di addestramento del computer anziché dichiarate direttamente dagli esseri umani) che definiscono una sequenza di operazioni.
Per esempio, l’anno scorso nel Regno Unito, i media hanno descritto il fallimento di un “algoritmo” per assegnare punteggi equi agli studenti che non potevano sostenere gli esami a causa del covid-19. Sicuramente, ciò di cui stavano discutendo questi rapporti era il modello: l’insieme di istruzioni che traducevano gli input (la performance di uno studente o la valutazione di un insegnante) in output (un punteggio).
Quello che sembra essere successo a Stanford è che gli esseri umani, inclusi gli esperti di etica, si sono seduti e hanno determinato quale serie di operazioni il sistema avrebbe dovuto utilizzare per determinare, sulla base di input come l’età e il dipartimento di un dipendente, se quella persona dovesse essere tra le prime a ottenere un vaccino.
Da quello che sappiamo, questa sequenza non era basata su una procedura di stima ottimizzata per alcuni obiettivi quantitativi, ma un insieme di decisioni normative su come stabilire la priorità ai vaccini, formalizzato nel linguaggio di un algoritmo. Questo approccio si qualifica come un algoritmo nella terminologia medica e all’interno di una definizione ampia, anche se l’unica intelligenza coinvolta era quella degli esseri umani.
Concentrati sull’impatto, non sull’input
Anche i legislatori stanno valutando cosa sia un algoritmo. Introdotto al Congresso degli Stati Uniti nel 2019, HR2291, o Algorithmic Accountability Act, utilizza il termine “sistema decisionale automatizzato” e lo definisce come “un processo computazionale, derivato da apprendimento automatico, statistiche o altre tecniche di elaborazione dei dati o di intelligenza artificiale, che prende una decisione o facilita il processo decisionale umano, con un impatto sui consumatori”.
Allo stesso modo, New York City sta prendendo in considerazione l’ Int 1894, una legge che introdurrebbe controlli obbligatori di “strumenti automatizzati per la decisione sul lavoro”, definiti come “qualsiasi sistema la cui funzione è governata dalla teoria statistica, o sistemi i cui parametri sono definiti da tali sistemi”. In particolare, entrambi i progetti di legge impongono audit, ma forniscono solo linee guida di alto livello su cosa sia un audit.
Poiché i responsabili delle decisioni nel governo e nell’industria creano standard per gli audit algoritmici, sono probabili disaccordi sul valore dell’algoritmo. Piuttosto che cercare di concordare una definizione comune di “algoritmo” o una particolare tecnica di auditing universale, sarebbe meglio valutare i sistemi automatizzati principalmente in base al loro impatto.
Concentrandoci sul risultato piuttosto che sull’input, si evitano dibattiti inutili sulla complessità tecnica. Ciò che conta è il potenziale di danno, indipendentemente dal fatto che si stia discutendo di una formula algebrica o di una rete neurale profonda.
L’impatto è un fattore di valutazione critico in altri campi. È integrato nel classico framework DREAD nella sicurezza informatica, che è stato reso popolare per la prima volta da Microsoft all’inizio degli anni Duemila ed è ancora utilizzato in alcune aziende. La “A” in DREAD chiede ai valutatori dei rischi di quantificare gli “utenti interessati” chiedendo quante persone subirebbero l’impatto di una vulnerabilità identificata.
Le valutazioni dell’impatto sono comuni anche nei campi dei diritti umani e della sostenibilità e si sono visti alcuni primi sviluppatori di valutazioni dell’impatto dell’AI creare rubriche simili. Per esempio, l’ Algorithmic Impact Assessment canadese fornisce un punteggio basato su domande qualitative del tipo: “I clienti in questo settore di attività sono particolarmente vulnerabili? (sì o no)”.
Vi sono certamente difficoltà nell’introdurre un termine vagamente definito come “impatto” in qualsiasi valutazione. Il framework DREAD è stato successivamente integrato o sostituito da STRIDE, in parte a causa delle difficoltà nel riconciliare convinzioni diverse su ciò che comporta la modellazione dei rischi. Microsoft ha smesso di usare DREAD nel 2008.
Nel campo dell’AI, conferenze e riviste hanno già introdotto dichiarazioni di impatto con vari gradi di successo e controversia. È un sistema tutt’altro che infallibile nel senso che valutazioni d’impatto puramente formali possono essere interpretabili in più direzioni, mentre una definizione eccessivamente vaga può portare a valutazioni arbitrarie o protratte nel tempo.
Tuttavia, è un importante passo avanti. Il termine “algoritmo”, comunque definito, non dovrebbe essere uno scudo per assolvere gli umani che hanno progettato e implementato qualsiasi sistema di assunzione di responsabilità per le conseguenze del suo utilizzo. Questo è il motivo per cui il pubblico richiede sempre più consapevolezza algoritmica e il concetto di impatto offre un utile terreno comune a diversi gruppi che lavorano per soddisfare tale domanda.
Kristian Lum è un professore associato alla ricerca presso il Computer and Information Science Department dell’Università della Pennsylvania.
Rumman Chowdhury è il direttore del team di Machine Ethics, Transparency, and Accountability (META) su Twitter. In precedenza è stata CEO e fondatrice di Parity, una piattaforma di audit algoritmico e leader globale per l’AI responsabile in Accenture.
Immagine di : Getty
(rp)