l programma di AI sviluppato da DepMind ha cambiato la percezione globale delle potenzialità dell’intelligenza artificiale applicata alla scienza. Alcuni esperti di biosicurezza hanno, però, espresso preoccupazione su un utilizzo poco accurato delle proteine
di Will Douglas Heaven
Nel marzo del 2016 Demis Hassabis, CEO e cofondatore di DeepMind, era a Seoul, in Corea del Sud, a guardare come il programma di computer AlphaGo stava giocando cinque partite di Go, il gioco più complesso al mondo, contro Lee Sedol, un professionista coreano con il secondo maggior numero di vittorie in campionati internazionali all’epoca. Lee aveva previsto che avrebbe sconfitto l’AI di DeepMind, ma AlphaGo vinse 4-1. La sua vittoria ha cambiato la percezione mondiale di ciò che l’AI può fare.
In quel momento, Hassabis si è reso conto che la tecnologia della sua azienda era pronta per affrontare uno degli enigmi biologici che i ricercatori cercavano di risolvere da 50 anni: leggere il modo di organizzarsi delle proteine. La loro struttura tridimensionale, che ne determina interazione e comportamento nell’organismo, in realtà non è ancora ben conosciuta. L’uso dell’intelligenza artificiale per prevedere questa struttura con precisione offrirebbe uno strumento prezioso per aiutare a comprendere le malattie, dal cancro al covid, e accelerare lo sviluppo di terapie e vaccini. Le proteine sono un obiettivo primario per molti farmaci e un ingrediente chiave nelle nuove terapie.
Nel 2020 DeepMind, di proprietà di Alphabet, ha reso pubblico AlphaFold2, un’intelligenza artificiale in grado di prevedere la forma delle proteine a livello atomico. Affrontare problemi scientifici è quanto Hassabis si proponeva di raggiungere, ed è ciò per cui vuole essere conosciuto.
Sono 25 anni che pensa alle proteine, da quando era uno studente universitario all’Università di Cambridge negli anni 1990. “Un mio amico era ossessionato da questo problema”, ricorda. Quell’amico era Tim Stevens, che ora è un ricercatore di Cambridge che lavora sulle strutture proteiche. “Le proteine sono le macchine molecolari che fanno girare la vita sulla terra”, dice Stevens.
Il nostro organismo funziona grazie alle proteine: digeriscono il cibo, contraggono i muscoli, attivano i neuroni, rilevano la luce, alimentano le risposte immunitarie e molto altro. Capire cosa fanno le singole proteine è quindi fondamentale per capire come risolvere i problemi quando qualcosa non va per il verso giusto.
Una proteina è costituita da un nastro di amminoacidi, con le proteine ripiegate in un nodo di complesse torsioni e piroette. La forma 3D risultante determina la funzione. Per esempio, l’emoglobina, una proteina che trasporta l’ossigeno nell’organismo e conferisce al sangue il suo colore rosso, ha la forma di una piccola sacca, che le consente di raccogliere le molecole di ossigeno nei polmoni. La struttura della proteina spike di SARS-CoV-2 permette al virus di agganciarsi alle cellule.
Il problema è che è difficile capire la struttura di una proteina, e quindi la sua funzione, dal nastro di amminoacidi, che può assumere 10^300 forme possibili, un numero nell’ordine di tutte le possibili mosse in una partita di Go. La previsione di questa struttura in laboratorio, utilizzando tecniche come la cristallografia a raggi X, è un lavoro scrupoloso.
La sperimentazione a livello mondiale CASP (Critical Assessment of Structure Prediction) è stata istituita nel 1994 per accelerare le cose mettendo l’uno contro l’altro metodi di previsione computerizzata ogni due anni. Ma, fino al 2016, nessuna tecnica si è mai avvicinata all’accuratezza del lavoro di laboratorio.
A pochi mesi dal successo di AlphaGo, nel 2016, DeepMind ha creato un piccolo team interdisciplinare per fare luce sul ripiegamento delle proteine. Il primo assaggio di ciò su cui stavano lavorando è arrivato nel 2018, quando DeepMind ha vinto il CASP 13, superando le altre tecniche in modo netto. Ma al di là del mondo della biologia, pochi hanno prestato molta attenzione a quanto successo.
La situazione è cambiata quando AlphaFold2 è uscito due anni dopo. Ha vinto il concorso CASP, segnando la prima volta che un’intelligenza artificiale ha previsto la struttura della proteina con un’accuratezza corrispondente a quella dei modelli prodotti in un laboratorio sperimentale, spesso con margini di errore della larghezza di un atomo (0,1 di un nanometro).
Guardando AlphaGo giocare a Seoul, Hassabis si è chiesto se avrebbe potuto estendere l’AI alla mappatura delle proteine. In fondo i due problemi non erano così diversi. Come Go, il ripiegamento delle proteine è un problema con una complessità combinatoria così vasta che i metodi della ricerca esaustiva non potevano risolvere.
Un’altra cosa che Go e il ripiegamento delle proteine hanno in comune è la disponibilità di molti dati su come risolvere il problema. Infatti, AlphaFold ha utilizzato le strutture proteiche esistenti della Protein Data Bank, un database internazionale di strutture risolte che i biologi hanno aggiornato per decenni.
AlphaFold2 utilizza le reti di controllo attenzionale, una tecnica di apprendimento profondo standard che consente a un’AI di concentrarsi su parti specifiche dei suoi dati di input. Questa tecnologia è alla base di modelli linguistici come GPT-3, in cui dirige la rete neurale verso parole rilevanti in una frase. Allo stesso modo, AlphaFold2 è diretto agli amminoacidi rilevanti in una sequenza, come le coppie che potrebbero stare insieme in una struttura piegata.
Nell’ultimo anno, DeepMind ha pubblicato una descrizione dettagliata di come funziona il sistema e rilasciato il codice sorgente di AlphaFold2. Ha anche creato un database pubblico con l’Istituto europeo di bioinformatica delle nuove strutture proteiche previste dall’AI. Il database ha attualmente circa 800.000 voci e DeepMind afferma che il prossimo anno ne aggiungerà più di 100 milioni, quasi tutte le proteine conosciute dalla scienza.
Molti ricercatori non hanno ancora pienamente compreso ciò che DeepMind ha fatto, afferma Charlotte Deane, responsabile scientifica di Exscientia, un’azienda di AI impegnata nella scoperta di farmaci con sede nel Regno Unito, e coordinatrice del laboratorio di bioinformatica dell’Università di Oxford. Deane è stata anche uno dei revisori dell’articolo che DeepMind ha pubblicato su AlphaFold sulla rivista scientifica “Nature” l’anno scorso. “Ha cambiato la scaletta delle domande che ci si possono porre”, dice.
Team in tutto il mondo hanno iniziato a utilizzare AlphaFold nella ricerca sulla resistenza ad antibiotici, cancro, covid e altro ancora. Roland Dunbrack del Fox Chase Cancer Center di Filadelfia è stato uno dei primi ad adottarlo. “AlphaFold ha introdotto un livello di precisione senza precedenti nel lavoro. In passato abbiamo sempre utilizzato i modelli generati dal computer, ma spesso ci sbagliavamo. Il sistema può ancora commettere errori, ma quando funziona bene può essere difficile distinguere tra le sue previsioni e una struttura prodotta in laboratorio, spiega Dunbrack.
“È uno strumento super utile che tutti nel mio laboratorio utilizzano”, afferma Kliment Verba, biologo strutturale dell’Università della California, a San Francisco. Verba lavora principalmente sul cancro, ma nelle prime settimane della pandemia di covid-19, si è unito a un consorzio di ricercatori che studiano il virus SARS-CoV-2. In particolare, voleva capire come le sue proteine dirottassero quelle dell’ospite.
Verba e i suoi colleghi avevano prodotto parte della struttura per la proteina virale a cui erano interessati, ma mancava un pezzo. Molte proteine hanno più domini: sezioni densamente ripiegate, lunghe alcune centinaia di amminoacidi, che possono avere ciascuna una funzione separata. Un dominio potrebbe legarsi al DNA, un altro potrebbe legarsi a un’altra proteina e così via. “Sono bestie a più teste”, dice Dunbrack.
Strutturalmente, i domini sono come nodi in una corda, collegati da fili sciolti e ad anello che si attorcigliano. Nella proteina che stava studiando, il team di Verba aveva individuato la forma ruvida della corda, ma non la struttura dettagliata di tutti i nodi. Senza quel dettaglio, c’era poco da dire su come funzionava. Si sono resi conto, tuttavia, che questa proteina era una di quelle che DeepMind aveva già eseguito tramite AlphaFold e condiviso online.
La previsione di AlphaFold non era perfetta, in quanto i fili ad anello non erano del tutto corretti. Ma aveva la forma dei quattro domini della proteina. I ricercatori hanno preso in considerazione le previsioni di AlphaFold per i domini e le hanno allineate con la forma approssimativa che avevano. “La somiglianza era straordinaria”, dice Verba. “Eravamo gli unici al mondo con la struttura completa”.
A suo parere, il punto di forza di AlphaFold risieda nel trovare strutture per proteine che non sono state ancora completamente studiate. Verba è interessato alle chinasi, per esempio. Questi enzimi svolgono un ruolo cruciale nella regolazione della normale funzione delle cellule. Se smettono di funzionare correttamente, possono causare il cancro. Solo circa la metà delle circa 500 chinasi nel corpo umano è ben compresa: il resto è noto come il chinoma oscuro.
Ricercatori come Verba e Dunbrack sono interessati allo sviluppo di farmaci contro il cancro che prendono di mira il chinoma. Ma è qui che entrano in gioco i limiti di AlphaFold. Poiché l’elaborazione della struttura di una proteina in laboratorio è costosa, in genere viene eseguita solo una volta che la proteina è stata scelta come un candidato promettente, il che potrebbe richiedere mesi nel processo di scoperta del farmaco. La speranza, dice Deane, è che AlphaFold possa invertire il processo.
Eppure, come riconosce Deane, è necessaria più di una struttura statica per comprendere appieno come un farmaco e una proteina potrebbero interagire. Le proteine non stanno ferme; le loro strutture possono scorrere attraverso sottili riconfigurazioni. “Molte volte queste piccole trasformazioni sono il punto cruciale della funzione biologica”, afferma Verba. Inoltre, una proteina può essere aperta a ricevere un farmaco in uno stato, ma non in altri. E a giudicare da ciò che i ricercatori hanno visto finora, AlphaFold sembra prevedere lo stato più comune di queste strutture, che potrebbe non essere quello importante per lo sviluppo di farmaci.
Le proteine possono anche cambiare forma quando i farmaci si legano a loro, il che può influenzare il modo in cui funziona il farmaco. Nel peggiore dei casi, un farmaco che si lega a una proteina può avere effetti a catena imprevedibili sulle proteine adiacenti, potenzialmente anche invertendo ciò per cui il farmaco è stato progettato, attivando piuttosto che inibendo alcune funzioni.
Ola Engkvist, capo responsabile dell’AI molecolare di AstraZeneca, pensa che le strutture generate dall’intelligenza artificiale in un prossimo futuro aiuteranno a identificare i bersagli dei farmaci. “Per portare a risultati decisivi, AlphaFold deve essere accompagnato da metodi computazionali migliori per comprendere la dinamica delle proteine e gestire complessi proteici più grandi”, afferma.
Il futuro del programma
DeepMind prevede di affrontare molti di questi problemi nella prossima versione del programma. Una linea di lavoro consiste nel generare più variazioni della forma di una proteina per cercare di catturarne la dinamica. Il modo in cui una proteina si muove è governato da una chimica e una fisica complesse, quindi un modello completo e mobile potrebbe richiedere la fornitura ad AlphaFold di grandi quantità di informazioni extra su questo processo. Uno svantaggio di questo approccio potrebbe essere che le informazioni potrebbero introdurre dei vincoli, degradando le capacità predittive dello strumento.
La scorsa estate, DeepMind ha rilasciato AlphaFold Multimer, che è progettato per prevedere la struttura dei complessi proteici: sovrastrutture composte da più proteine raggruppate insieme. Ma è molto meno preciso di AlphaFold. Gli errori “stupidi” sono una caratteristica anche della migliore AI. AlphaGo ha commesso un errore di base nell’unica partita che ha perso contro Lee Sedol, afferma Hassabis. perché non si può intervenire su una rete neurale senza influenzarne in qualche modo il suo funzionamento. “Le correzioni hard-coded danneggiano la capacità di apprendimento di un’AI, perché è una vera sfida sapere quando usarle” dice Hassabis. “Va contro il concetto stesso di apprendimento”.
DeepMind sta raccogliendo esempi degli errori più gravi di AlphaFold e lo sta addestrando a gestirli correttamente. L’azienda sta investendo in un team chiamato AI for Science, che ha prodotto una serie di pubblicazioni negli ultimi mesi, in campi che vanno dalle previsioni meteo alla matematica, alla chimica quantistica e alla fusione. Nessuno ha avuto l’impatto di AlphaFold, ma l’ampiezza del progetto è chiara.
A novembre, Hassabis ha assunto il ruolo di CEO della startup Isomorphic Labs, un’azienda sorella di Alphabet che si concentrerà esclusivamente sull’applicazione dell’AI alle biotecnologie e alla medicina. Nel suo post sul blog in cui annunciava il nuovo incarico, Hassabis scrive che proprio come la matematica si è rivelata il linguaggio descrittivo giusto per la fisica, l’AI potrebbe svolgere un ruolo simile per la biologia. “Quasi tutti i prodotti di Google contengono la tecnologia DeepMind. Si può pensare a Isomorphic Labs come al nostro sbocco per il mondo reale al di là di Google”, spiega Hassabis.
AlphaFold è un punto di inizio piuttosto che un punto di arrivo per Hassabis. “Vedremo una sorta di nuova rinascita nella scienza, in cui queste tecniche di intelligenza artificiale continueranno a diventare più sofisticate e ad essere applicate a un’ampia gamma di campi scientifici”, afferma. “Man mano che la marea dell’AI sale, una lunga serie di problemi diventano affrontabili”.
(rp)