
L’ultimo sforzo, della Mayo Clinic, contiene alcuni indizi.
Scrutare il corpo per trovare e diagnosticare il cancro significa individuare gli schemi. I radiologi usano i raggi X e la risonanza magnetica per illuminare i tumori, mentre i patologi esaminano al microscopio i tessuti di reni, fegati e altre aree alla ricerca di schemi che mostrino la gravità del tumore, l’eventuale efficacia di particolari trattamenti e l’eventuale diffusione della neoplasia.
In teoria, l’intelligenza artificiale dovrebbe essere in grado di dare una mano. “Il nostro lavoro consiste nel riconoscimento dei modelli”, afferma Andrew Norgan, patologo e direttore medico della piattaforma di patologia digitale della Mayo Clinic. “Guardiamo il vetrino e raccogliamo le informazioni che si sono dimostrate importanti”.
L’analisi visiva è qualcosa in cui l’intelligenza artificiale è diventata piuttosto brava da quando i primi modelli di riconoscimento delle immagini hanno iniziato a decollare quasi 15 anni fa. Anche se nessun modello sarà perfetto, si può immaginare che un potente algoritmo possa un giorno individuare qualcosa che sfugge a un patologo umano, o almeno accelerare il processo di diagnosi. Stiamo iniziando a vedere molti nuovi sforzi per costruire un modello di questo tipo – almeno sette tentativi solo nell’ultimo anno – ma rimangono tutti sperimentali. Cosa ci vorrà per renderli abbastanza validi da essere utilizzati nel mondo reale?
All’inizio di questo mese sono stati pubblicati su arXiv i dettagli dell’ultimo tentativo di costruire un modello di questo tipo, condotto dall’azienda sanitaria di intelligenza artificiale Aignostics e dalla Mayo Clinic. Il documento non è stato sottoposto a revisione paritaria, ma rivela molto sulle sfide da affrontare per portare un simile strumento in contesti clinici reali.
Il modello, chiamato Atlas, è stato addestrato su 1,2 milioni di campioni di tessuto provenienti da 490.000 casi. La sua accuratezza è stata testata rispetto ad altri sei modelli di patologia AI leader del settore. Questi modelli competono su test condivisi, come la classificazione delle immagini del cancro al seno o la classificazione dei tumori, in cui le previsioni del modello vengono confrontate con le risposte corrette fornite dai patologi umani. Atlas ha battuto i modelli rivali in sei test su nove. Ha ottenuto il punteggio più alto nella classificazione del tessuto canceroso del colon-retto, giungendo alla stessa conclusione dei patologi umani nel 97,1% dei casi. Per un altro compito, invece, la classificazione dei tumori da biopsie di cancro alla prostata, Atlante ha battuto i punteggi più alti degli altri modelli con un punteggio di appena il 70,5%. La sua media su nove benchmark ha mostrato che ha ottenuto le stesse risposte degli esperti umani l’84,6% delle volte.
Pensiamo a cosa significa. Il modo migliore per sapere cosa sta accadendo alle cellule cancerose nei tessuti è far esaminare un campione da un patologo, quindi questa è la performance con cui i modelli di intelligenza artificiale vengono misurati. I modelli migliori si avvicinano agli esseri umani in determinati compiti di rilevamento, ma sono in ritardo in molti altri. Quanto deve essere bravo un modello per essere clinicamente utile?
“Il 90% probabilmente non è sufficiente. Bisogna essere ancora più bravi”, afferma Carlo Bifulco, chief medical officer di Providence Genomics e co-creatore di GigaPath, uno degli altri modelli di patologia AI esaminati nello studio della Mayo Clinic. Tuttavia, secondo Bifulco, i modelli di intelligenza artificiale che non ottengono risultati perfetti possono comunque essere utili nel breve termine e potrebbero aiutare i patologi a velocizzare il loro lavoro e a formulare diagnosi più rapidamente.
Quali sono gli ostacoli che impediscono di ottenere prestazioni migliori? Il problema numero uno sono i dati di formazione.
“Meno del 10% degli ambulatori di patologia negli Stati Uniti sono digitalizzati”, afferma Norgan. Ciò significa che i campioni di tessuto vengono posti su vetrini e analizzati al microscopio, per poi essere archiviati in enormi registri senza mai essere documentati digitalmente. Sebbene gli ambulatori europei tendano a essere più digitalizzati e siano in corso sforzi per creare set di dati condivisi di campioni di tessuto su cui addestrare i modelli di intelligenza artificiale, non c’è ancora molto su cui lavorare.
Senza set di dati diversificati, i modelli di intelligenza artificiale faticano a identificare l’ampia gamma di anomalie che i patologi umani hanno imparato a interpretare. Questo vale anche per le malattie rare, afferma Maximilian Alber, cofondatore e CTO di Aignostics. Cercando nei database pubblici campioni di tessuto di malattie particolarmente rare, “si trovano 20 campioni nell’arco di 10 anni”, dice Alber.
Intorno al 2022, la Mayo Clinic ha previsto che questa mancanza di dati di formazione sarebbe stata un problema. Decise quindi di digitalizzare tutte le proprie pratiche di patologia, insieme a 12 milioni di vetrini provenienti dai propri archivi e risalenti a decenni fa (i pazienti avevano acconsentito al loro utilizzo per la ricerca). Ha ingaggiato un’azienda per costruire un robot che ha iniziato a scattare foto ad alta risoluzione dei tessuti, lavorando fino a un milione di campioni al mese. Grazie a questi sforzi, il team è riuscito a raccogliere 1,2 milioni di campioni di alta qualità utilizzati per addestrare il modello di Mayo.
Questo ci porta al problema numero due dell’utilizzo dell’intelligenza artificiale per individuare il cancro. I campioni di tessuto provenienti dalle biopsie sono minuscoli – spesso hanno un diametro di appena un paio di millimetri – ma sono talmente ingranditi che le loro immagini digitali contengono più di 14 miliardi di pixel. Ciò le rende circa 287.000 volte più grandi delle immagini utilizzate per addestrare i migliori modelli di riconoscimento delle immagini dell’IA.
“Questo significa ovviamente molti costi di archiviazione e così via”, dice Hoifung Poon, un ricercatore di intelligenza artificiale di Microsoft che ha lavorato con Bifulco per creare GigaPath, pubblicato su Nature l’anno scorso. Ma questo obbliga anche a prendere decisioni importanti su quali parti dell’immagine utilizzare per addestrare il modello di intelligenza artificiale e quali cellule potrebbero sfuggire nel processo. Per realizzare Atlas, la Mayo Clinic ha utilizzato il cosiddetto metodo delle piastrelle, creando essenzialmente molte istantanee dallo stesso campione da inserire nel modello di intelligenza artificiale. Capire come selezionare queste mattonelle è arte e scienza allo stesso tempo, e non è ancora chiaro quali siano i modi migliori per farlo.
In terzo luogo, c’è la questione di quali siano i benchmark più importanti per un modello di intelligenza artificiale che individua il cancro. I ricercatori dell’Atlas hanno testato il loro modello nell’impegnativo dominio dei benchmark di tipo molecolare, che prevede il tentativo di trovare indizi da immagini di tessuti campione per indovinare cosa sta accadendo a livello molecolare. Ecco un esempio: i geni di riparazione dei mismatch del corpo sono particolarmente preoccupanti per il cancro, perché catturano gli errori commessi quando il DNA viene replicato. Se questi errori non vengono individuati, possono favorire lo sviluppo e la progressione del cancro.
“Alcuni patologi potrebbero dire di avere una specie di sensazione quando pensano che qualcosa sia carente di mismatch-repair in base al suo aspetto”, dice Norgan. Ma i patologi non agiscono solo sulla base di questa sensazione istintiva. Possono eseguire test molecolari per ottenere una risposta più definitiva. E se invece, dice Norgan, potessimo usare l’intelligenza artificiale per prevedere cosa sta accadendo a livello molecolare? È un esperimento: il modello AI potrebbe individuare i cambiamenti molecolari sottostanti che gli esseri umani non riescono a vedere?
In genere no, a quanto pare. O almeno non ancora. La media di Atlas per i test molecolari è stata del 44,9%. Si tratta della migliore performance per l’IA finora, ma dimostra che questo tipo di test ha ancora molta strada da fare.
Secondo Bifulco, Atlas rappresenta un progresso incrementale ma reale. “La mia sensazione, purtroppo, è che tutti siano bloccati a un livello simile”, afferma. “Abbiamo bisogno di qualcosa di diverso in termini di modelli per fare davvero dei progressi significativi, e abbiamo bisogno di serie di dati più grandi”.
Immagine di copertina: una cellula cancerosa della vescica urinaria. Institute of Pathology, Charité.