L’AI sta fallendo con il covid

Numerosi strumenti di intelligenza artificiale sono stati utilizzati negli ospedali, nonostante non siano stati adeguatamente testati, ma i risultati sono poco promettenti. 

di Will Douglas Heaven

Quando il covid-19 ha colpito l’Europa nel marzo 2020, gli ospedali sono precipitati in una crisi sanitaria ancora difficilmente comprensibile. “I medici non avevano davvero idea di come gestire questi pazienti”, afferma Laure Wynants, epidemiologa dell’Università di Maastricht nei Paesi Bassi, che studia gli strumenti predittivi.

C’erano dati provenienti dalla Cina, che anticipavano di quattro mesi come ci si poteva muovere nella corsa contro la pandemia. Se gli algoritmi di apprendimento automatico fossero stati addestrati su quei dati per aiutare i medici a capire cosa stavano vedendo e prendere decisioni, si sarebbero potute salvare vite umane. 

La comunità dell’AI si è affrettata a sviluppare un software che molti ritenevano avrebbe consentito agli ospedali di diagnosticare o valutare i pazienti più velocemente e fornire da subito il supporto tanto necessario in prima linea. Alla fine, sono state sviluppate centinaia di strumenti predittivi. Nessuno di loro ha fatto una vera differenza e alcuni si sono rivelati dannosi.

Questa è la conclusione schiacciante di numerosi studi pubblicati negli ultimi mesi. A giugno, il Turing Institute, il centro nazionale del Regno Unito per la scienza dei dati e l’intelligenza artificiale, ha pubblicato un rapporto che riassume le discussioni in una serie di seminari tenuti alla fine del 2020. Il chiaro consenso è stato che gli strumenti di AI hanno avuto un impatto minimo, se non nullo nella lotta al covid.

Non adatti all’uso clinico

Questo fa eco ai risultati di due importanti studi che hanno valutato centinaia di strumenti predittivi sviluppati lo scorso anno. Wynants è l’autore principale di uno di questi, una recensione del “British Medical Journal”, ancora in fase di aggiornamento man mano che vengono rilasciati nuovi strumenti e testati quelli esistenti. Lei e i suoi colleghi hanno esaminato 232 algoritmi per diagnosticare i pazienti o prevedere i futuri sviluppi della malattia. Hanno scoperto che nessuno di loro era adatto per l’uso clinico. Solo due sono stati individuati come abbastanza promettenti.

Lo studio di Wynants è supportato da un’altra ampia revisione effettuata da Derek Driggs, un ricercatore di machine learning dell’Università di Cambridge, e dai suoi colleghi, e pubblicata su “Nature Machine Intelligence”. Questo team ha utilizzato i modelli di apprendimento profondo per diagnosticare il covid e prevedere il rischio del paziente da immagini mediche, come radiografie del torace e tomografia computerizzata (TC) del torace. Hanno esaminato 415 strumenti pubblicati e, come Wynants e i suoi colleghi, hanno concluso che nessuno era adatto all’uso clinico.

“Questa pandemia è stata un grande test per l’intelligenza artificiale e la medicina”, afferma Driggs, che sta lavorando a uno strumento di apprendimento automatico per aiutare i medici. Entrambi i team hanno scoperto che i ricercatori hanno ripetuto gli stessi errori di base nel modo in cui hanno addestrato o testato i loro strumenti. Assunzioni errate sui dati spesso significavano che i modelli addestrati non funzionavano come affermato.

Wynants e Driggs credono ancora che l’intelligenza artificiale possa aiutare. Ma sono preoccupati che gli strumenti dell’AI potrebbero essere dannosi se costruiti nel modo sbagliato perché potrebbero mancare le diagnosi o sottovalutare il rischio per i pazienti vulnerabili. “C’è un clamore eccessivo sui modelli di apprendimento automatico e su cosa possono fare oggi”, afferma Driggs.

Le aspettative non realistiche incoraggiano l’uso di questi strumenti prima che siano pronti. Sia Wynants che Driggs affermano che alcuni degli algoritmi che hanno esaminato sono già stati utilizzati negli ospedali e alcuni vengono commercializzati da sviluppatori privati. “Temo che possano aver in qualche modo danneggiato i pazienti”, afferma Wynants.

Allora cosa è andato storto? E come colmiamo questo divario? Se c’è un lato positivo, è che la pandemia ha chiarito a molti ricercatori che il modo in cui sono costruiti gli strumenti di intelligenza artificiale deve cambiare. “La pandemia ha messo sotto i riflettori problemi che ci trascinavamo dietro da tempo”, afferma Wynants.

Cosa è andato storto

Molti dei problemi scoperti sono legati alla scarsa qualità dei dati che i ricercatori hanno utilizzato per sviluppare i loro strumenti. Le informazioni sui pazienti covid, comprese le scansioni mediche, sono state raccolte e condivise nel mezzo di una pandemia globale, spesso dai medici che lottano per curare quei pazienti. I ricercatori volevano aiutare rapidamente e questi erano gli unici set di dati pubblici disponibili. Ma questo significava che molti strumenti sono stati creati utilizzando dati etichettati erroneamente o dati provenienti da fonti sconosciute.

Driggs mette in evidenza il problema di quelli che chiama set di dati di Frankenstein, che sono uniti insieme da più fonti e possono contenere ridondanze. Ciò significa che alcuni strumenti finiscono per essere testati sugli stessi dati su cui sono stati addestrati, facendoli apparire più accurati di quanto non siano.

Confonde anche l’origine di alcuni set di dati. Ciò può significare che ai ricercatori non sono a conoscenza di caratteristiche importanti che distorcono l’addestramento dei loro modelli. Molti hanno utilizzato inconsapevolmente un set di dati che conteneva scansioni del torace di bambini che non avevano il covid come esempi di come apparivano i casi non covid. Ma di conseguenza, le AI hanno imparato a identificare i bambini, non il covid.

Il gruppo di Driggs ha addestrato il proprio modello utilizzando un set di dati che conteneva un mix di scansioni effettuate quando i pazienti erano sdraiati e in piedi. Poiché i pazienti scansionati mentre erano sdraiati avevano maggiori probabilità di essere ammalati gravemente, l’AI ha imparato erroneamente a prevedere un grave rischio covid dalla posizione di una persona.

In ancora altri casi, è stato scoperto che alcune AI rilevavano il carattere del testo utilizzato da alcuni ospedali per etichettare le scansioni. Di conseguenza, i caratteri degli ospedali con casi più gravi sono diventati predittori del rischio covid.

Errori come questi sembrano ovvi col senno di poi. Possono anche essere risolti adeguando i modelli, se i ricercatori ne sono a conoscenza. È possibile riconoscere le carenze e rilasciare un modello meno accurato, ma meno fuorviante. Ma molti strumenti sono stati sviluppati da ricercatori di intelligenza artificiale che non avevano l’esperienza medica per individuare difetti nei dati o da ricercatori medici che non avevano le capacità matematiche per compensare tali difetti.

Un problema più sottile evidenziato da Driggs è il bias di incorporazione, o il pregiudizio al momento in cui viene etichettato un set di dati. Per esempio, molte scansioni mediche sono state etichettate in base al fatto che i radiologi che le hanno create affermavano fossero casi di covid. Ma questo modo di procedere incorpora la convinzione di quel particolare medico su un set di dati. Sarebbe molto meglio etichettare una scansione medica con il risultato di un test PCR piuttosto che l’opinione di un medico, afferma Driggs. Ma non c’è sempre tempo per sottigliezze statistiche negli ospedali affollati.

Ciò non ha impedito ad alcuni di questi strumenti di essere introdotti nella pratica clinica. Wynants dice che non è chiaro quali vengano utilizzati o come. Gli ospedali a volte sostengono che stanno usando uno strumento solo per scopi di ricerca, il che rende difficile valutare quanto i medici facciano affidamento su di loro. “C’è molta segretezza”, commenta.

Wynants ha chiesto a un’azienda che commercializzava algoritmi di deep learning di condividere informazioni sul suo approccio, ma non ha ricevuto risposta. In seguito ha trovato diversi modelli pubblicati da ricercatori legati a questa azienda, tutti con un alto rischio di parzialità. “In realtà non sappiamo cosa ha implementato l’azienda”, afferma. Secondo Wynants, alcuni ospedali stanno persino firmando accordi di non divulgazione con fornitori di AI medica. Quando chiedeva ai medici quali algoritmi o software stavano usando, a volte le dicevano che non erano autorizzati a dirlo.

Come intervenire

Qual è la soluzione? Dati migliori sarebbero d’aiuto, ma in tempi di crisi è una domanda impegnativa. È più importante sfruttare al meglio i set di dati che abbiamo. La mossa più semplice sarebbe che i team di intelligenza artificiale collaborassero di più con i medici, afferma Driggs. I ricercatori devono anche condividere i loro modelli e rivelare come sono stati formati in modo che altri possano testarli e basarsi su di essi. “Sono due cose che potremmo fare oggi”, dice. “E risolverebbero forse il 50 per cento dei problemi che abbiamo identificato”.

Anche ottenere dati sarebbe più facile se i formati fossero standardizzati, afferma Bilal Mateen, un medico che guida il team di tecnologia clinica del Wellcome Trust, un ente di beneficenza globale per la ricerca sanitaria con sede a Londra. 

Un altro problema che Wynants, Driggs e Mateen identificano è che la maggior parte dei ricercatori si è affrettata a sviluppare i propri modelli, invece di lavorare insieme o migliorare quelli esistenti. Il risultato è stato che lo sforzo collettivo dei ricercatori di tutto il mondo ha prodotto centinaia di strumenti mediocri e solo una manciata di strumenti adeguatamente formati e testati.

“I modelli sono così simili: usano quasi tutti le stesse tecniche con piccole modifiche, gli stessi input e fanno tutti gli stessi errori”, afferma Wynants. “Se tutte queste persone che realizzano nuovi modelli invece testassero modelli già disponibili, forse a quest’ora avremmo qualcosa che potrebbe davvero aiutare in clinica”.

In un certo senso, questo è un vecchio problema della ricerca. I ricercatori accademici hanno pochi incentivi di carriera per condividere il lavoro o convalidare i risultati esistenti. Non c’è ricompensa per aver superato l’ultimo miglio che porta la tecnologia dal “banco del laboratorio al capezzale”, afferma Mateen. 

Per affrontare questo problema, l’Organizzazione mondiale della sanità sta prendendo in considerazione un contratto di condivisione dei dati di emergenza che entrerebbe in vigore durante le crisi sanitarie internazionali. Consentirebbe ai ricercatori di spostare più facilmente i dati oltre confine, afferma Mateen. Prima del vertice del G7 nel Regno Unito a giugno, i principali gruppi scientifici delle nazioni partecipanti hanno anche chiesto la “prontezza dei dati” in preparazione per future emergenze sanitarie.

Tali iniziative suonano un po’ vaghe, e le richieste di cambiamento hanno sempre una zaffata di pio desiderio su di esse. Ma Mateen ha quella che lui definisce una visione improntata a un “ingenuo ottimismo”. Prima della pandemia, lo slancio per tali iniziative si era fermato. “Se non accettiamo l’idea che dobbiamo risolvere i problemi nel giusto ordine, siamo condannati a ripetere gli stessi errori”, afferma Mateen. “Dimenticare le lezioni di questa pandemia è irrispettoso nei confronti di coloro che sono morti”.

Immagine di: AP/ MIT Technology Review

(rp)

Related Posts
Total
0
Share