L’ultima versione del sistema di apprendimento profonda di Deep Mind può prevedere la forma delle proteine con dimensioni non più grandi di un atomo, permettendo in tal modo agli scienziati di migliorare la fase di progettazione dei farmaci e la comprensione delle malattie.
di Will Douglas Heaven
DeepMind ha già accumulato una serie di vittorie, con sistemi di AI che hanno dimostrato abilità sovrumane in giochi complessi, da Go e StarCraft all’intero catalogo di Atari. Ma Demis Hassabis, co-fondatore di DeepMind, ha sempre sottolineato che questi successi sono stati solo trampolini di lancio verso un obiettivo più ampio: una AI che ci aiuti a capire il mondo.
DeepMind e gli organizzatori del progetto a lungo termine Critical Assessment of protein Structure Prediction (CASP) hanno annunciato un’intelligenza artificiale che dovrebbe possedere i requisiti richiesti da Hassabis. L’ ultima versione di Deep Mind di AlphaFold, un sistema di apprendimento profondo in grado di prevedere con precisione la struttura delle proteine grandi come un atomo, ha risolto una delle grandi sfide della biologia. “È il primo utilizzo dell’AI per risolvere un problema serio”, afferma John Moult dell’Università del Maryland, che guida il team che gestisce CASP.
Una proteina è costituita da una struttura a nastro di amminoacidi che si intreccia su se stessa. Capire cosa fanno le proteine è la chiave per comprendere i meccanismi di base della vita e il suo funzionamento. I tentativi di sviluppare vaccini per il covid-19 si sono concentrati sulla proteina spike del virus, per esempio. Il modo in cui il coronavirus si lega alle cellule umane dipende dalla forma di questa proteina e dalle forme delle proteine all’esterno di quelle cellule. Il picco è solo una proteina tra miliardi di esseri viventi; solo nel corpo umano esistono decine di migliaia di diversi tipi di proteine.
Nel CASP di quest’anno, AlphaFold ha previsto la struttura di dozzine di proteine con un margine di errore di appena 1,6 angstrom, ovvero 0,16 nanometri, vale a dire le dimensioni di un atomo. Questo risultato supera di gran lunga tutti gli altri metodi di calcolo e per la prima volta corrisponde alla precisione di tecniche sperimentali per mappare la struttura delle proteine in laboratorio, come la microscopia crioelettronica, la risonanza magnetica nucleare e la cristallogafia a raggi x. Queste tecniche sono costose e lente: possono essere necessari centinaia di migliaia di dollari e anni di tentativi ed errori per ciascuna proteina. AlphaFold può trovare la forma di una proteina in pochi giorni.
La svolta potrebbe aiutare i ricercatori a progettare nuovi farmaci e a comprendere le malattie. A lungo termine, prevedere la struttura delle proteine aiuterà anche a progettare proteine sintetiche, come gli enzimi che digeriscono i rifiuti o producono biocarburanti. I ricercatori stanno anche esplorando modi per introdurre proteine sintetiche che aumenteranno i raccolti e renderanno le piante più nutrienti.
“È un progresso sostanziale”, afferma Mohammed AlQuraishi, un biologo dei sistemi presso la Columbia University che ha sviluppato il proprio software per prevedere la struttura delle proteine. “È qualcosa che semplicemente non mi aspettavo accadesse così rapidamente. È scioccante, in un certo senso”. “”È un risultato straordinario, come quello che hanno conseguito con Go”, afferma David Baker, capo dell’Istituto per il design delle proteine presso l’Università di Washington e responsabile del team di Rosetta, una famiglia di strumenti di analisi delle proteine.
Numeri astronomici
Identificare la struttura di una proteina è molto difficile. In molti casi, i ricercatori hanno a disposizione la sequenza di amminoacidi nel nastro, ma non la forma contorta in cui si piegano. Le forme possibili di intrecci per ogni sequenza raggiungono numeri astronomici. I ricercatori hanno lottato con il problema almeno dagli anni 1970, quando Christian Anfinsen vinse il premio Nobel per aver dimostrato che le sequenze determinavano la struttura.
Il lancio di CASP nel 1994 ha dato una spinta al settore. Ogni due anni, gli organizzatori rilasciano circa 100 sequenze di amminoacidi per proteine le cui forme sono state identificate in laboratorio, ma non ancora rese pubbliche. Decine di gruppi di lavoro in tutto il mondo competono quindi per trovare il modo corretto di piegarle utilizzando il software. Molti degli strumenti sviluppati per CASP sono già utilizzati dai ricercatori medici. Ma il progresso è stato lento, con due decenni di progressi incrementali che non sono riusciti a produrre una scorciatoia per un meticoloso lavoro di laboratorio.
CASP ha avuto la scossa che stava cercando quando DeepMind ha partecipato alla competizione nel 2018 con la sua prima versione di AlphaFold. Non poteva ancora eguagliare l’accuratezza di un laboratorio, ma si è dimostrata migliore delle altre tecniche di calcolo. Quest’anno più della metà dei partecipanti utilizza una qualche forma di apprendimento profondo, afferma Moult. Di conseguenza, la precisione complessiva è stata maggiore. Il nuovo sistema di Baker, chiamato trRosetta, utilizza alcune delle idee di DeepMind del 2018, ma con risultati decisamente inferiori.
In CASP, i risultati vengono valutati utilizzando il cosiddetto test di distanza globale (GDT, global distance test), che misura su una scala da 0 a 100 quanto è vicina una struttura prevista alla forma effettiva di una proteina identificata negli esperimenti di laboratorio. L’ultima versione di AlphaFold ha ottenuto buoni risultati per tutte le proteine implicate in questa sfida, con un punteggio GDT superiore a 90 per circa due terzi di loro. Il suo GDT per le proteine più complesse è stato di 25 punti superiore a quello del gruppo di lavoro con il secondo miglior punteggio, dice John Jumper, che è a capo del team AlphaFold di DeepMind. Nel 2018 il vantaggio era di circa sei punti.
Un punteggio superiore a 90 significa che qualsiasi differenza tra la struttura prevista e quella effettiva potrebbe essere dovuta a errori sperimentali in laboratorio piuttosto che a un difetto del software. Potrebbe anche significare che la struttura prevista è una valida configurazione alternativa a quella identificata in laboratorio, all’interno del range di variazione naturale. Secondo Jumper, c’erano quattro proteine nella competizione su cui i giudici indipendenti non avevano finito di lavorare in laboratorio e le previsioni di AlphaFold hanno previsto le strutture corrette.
AlQuraishi pensava che i ricercatori avrebbero impiegato 10 anni per passare dai risultati di AlphaFold del 2018 a quelli di quest’anno. Siamo vicini al limite fisico della precisione perché queste strutture sono fondamentalmente instabili. Non avrebbe senso parlare di risoluzioni ancora inferiori”, egli spiega.
I pezzi del puzzle vanno rimessi insieme
AlphaFold si basa sul lavoro di centinaia di ricercatori in tutto il mondo. DeepMind ha anche attinto a una vasta gamma di competenze, mettendo insieme un team di biologi, fisici e informatici. I dettagli su come funziona saranno pubblicati questa settimana alla conferenza CASP e in un articolo sottoposto a revisione paritaria in un numero speciale della rivista “Proteins” del prossimo anno. In ogni caso, già sappiamo che il sistema utilizza una forma di rete dell’attenzione, una tecnica di apprendimento profondo che consente a un’intelligenza artificiale di allenarsi concentrandosi su parti di un problema più ampio. Jumper confronta l’approccio all’assemblaggio di un puzzle: si ricostruiscono alcune parti prima di inserirle nel tutto.
DeepMind ha addestrato AlphaFold su circa 170.000 proteine prese da un archivio pubblico di sequenze e strutture proteiche. Ha confrontato più sequenze nella banca dati e ha cercato coppie di amminoacidi che spesso finiscono vicini tra loro in strutture piegate. Quindi il sistema utilizza questi dati per indovinare la distanza tra coppie di amminoacidi in strutture che non sono ancora note. È anche in grado di valutare quanto siano accurate queste ipotesi. La formazione ha richiesto “alcune settimane”, utilizzando una potenza di calcolo tra le 100 e 200 GPU.
Dame Janet Thornton dell’European Bioinformatics Institute di Cambridge, Regno Unito, lavora da 50 anni sulla struttura e la funzione delle proteine. “Cominciavo a pensare che questo problema non sarebbe stato risolto nel corso della mia vita”, ha detto in una conferenza stampa la scorsa settimana. Molti farmaci sono progettati simulando la loro struttura molecolare 3D e cercando modi per inserire queste molecole in proteine bersaglio. Naturalmente, questo può essere fatto solo se la struttura di queste proteine è nota. Stiamo parlando solo di un quarto delle circa 20.000 proteine umane, afferma Thornton. Ciò lascia 15.000 bersagli farmacologici al di fuori della ricerca. AlphaFold apre una nuova area di ricerca.
DeepMind dice che intende studiare la leishmaniosi, la malattia del sonno e la malaria, tutte malattie tropicali causate da parassiti, perché sono collegate a molte strutture proteiche sconosciute. Uno svantaggio di AlphaFold è la sua lentezza rispetto alle tecniche rivali. Il sistema di AlQuraishi, che utilizza un algoritmo chiamato rete geometrica ricorrente (RGN, recurrent geometrical network), può trovare strutture proteiche un milione di volte più velocemente, restituendo i risultati in pochi secondi anziché in giorni. Le sue previsioni sono meno accurate, ma per alcune applicazioni la velocità è più importante, egli afferma.
I ricercatori stanno ora aspettando di scoprire esattamente come funziona AlphaFold. “Una volta che avranno descritto al mondo il suo funzionamento, sbocceranno mille fiori”, dice Baker. “Le persone lo useranno per molte situazioni diverse, che non possiamo neanche immaginare ora”. Anche un risultato meno accurato sarebbe stato una buona notizia per le persone che lavorano su enzimi o batteri, afferma AlQuraishi: “Ma abbiamo un prodotto ancora migliore, con rilevanza immediata per le applicazioni farmaceutiche”.
(rp)