Skip to main content
Stephanie Arnett/MIT Technology Review | JohnSears/Wikimedia (Jumper); EMBL-EBI/AlphaFold; Adobe Stock

“Sarei molto sorpreso se non vedessimo un impatto sempre maggiore dell’LLM sulla scienza”, afferma John Jumper.

Nel 2017, fresco di dottorato in chimica teorica, John Jumper sentì voci secondo cui Google DeepMind aveva abbandonato lo sviluppo di un’intelligenza artificiale in grado di giocare con abilità sovrumane e stava avviando un progetto segreto per prevedere le strutture delle proteine. Fece domanda per un posto di lavoro.

Solo tre anni dopo, Jumper ha celebrato una vittoria straordinaria che pochi avrebbero potuto prevedere. Insieme al CEO Demis Hassabis, ha co-guidato lo sviluppo di un sistema di intelligenza artificiale chiamato AlphaFold 2, in grado di prevedere la struttura delle proteine con una precisione pari allo spessore di un atomo, eguagliando l’accuratezza delle tecniche meticolose utilizzate in laboratorio, ma con una velocità molto superiore, fornendo risultati in poche ore anziché in mesi.

AlphaFold 2 ha risolto una grande sfida che da 50 anni impegnava la biologia. “Questo è il motivo per cui ho fondato DeepMind”, mi ha detto Hassabis alcuni anni fa. “In realtà, è il motivo per cui ho dedicato tutta la mia carriera all’intelligenza artificiale”. Nel 2024, Jumper e Hassabis hanno condiviso il Premio Nobel per la chimica .

Sono passati cinque anni da quando AlphaFold 2 ha sorpreso gli scienziati con il suo debutto. Ora che l’entusiasmo iniziale si è placato, quale impatto ha avuto realmente AlphaFold? Come lo stanno utilizzando gli scienziati? E quali sono le prospettive future? Ne ho parlato con Jumper (e con alcuni altri scienziati) per scoprirlo.

“Sono stati cinque anni straordinari”, dice Jumper ridendo: “È difficile ricordare un tempo in cui ho conoscevo un numero così importante di giornalisti”.

AlphaFold 2 è stato seguito da AlphaFold Multimer, in grado di prevedere strutture contenenti più di una proteina, e poi da AlphaFold 3, la versione più veloce mai realizzata. Google DeepMind ha anche permesso ad AlphaFold di accedere a UniProt, un vasto database di proteine utilizzato e aggiornato da milioni di ricercatori in tutto il mondo. Ad oggi ha previsto le strutture di circa 200 milioni di proteine, quasi tutte quelle conosciute dalla scienza.

Nonostante il suo successo, Jumper rimane modesto riguardo ai risultati ottenuti da AlphaFold. “Ciò non significa che siamo certi di tutto ciò che contiene”, afferma. “È un database di previsioni e presenta tutte le avvertenze tipiche delle previsioni”.

Un problema difficile

Le proteine sono le macchine biologiche che fanno funzionare gli esseri viventi. Formano muscoli, corna e piume; trasportano ossigeno in tutto il corpo e trasmettono messaggi tra le cellule; attivano i neuroni, digeriscono il cibo, alimentano il sistema immunitario e molto altro ancora. Ma capire esattamente cosa fa una proteina (e quale ruolo potrebbe svolgere in varie malattie o trattamenti) implica capire la sua struttura, e questo è difficile.

Le proteine sono costituite da catene di aminoacidi che le forze chimiche intrecciano in nodi complessi. Una catena non intrecciata fornisce pochi indizi sulla struttura che formerà. In teoria, la maggior parte delle proteine potrebbe assumere un numero astronomico di forme possibili. Il compito è quello di prevedere quella corretta.

Jumper e il suo team hanno creato AlphaFold 2 utilizzando un tipo di rete neurale chiamata trasformatore, la stessa tecnologia alla base dei grandi modelli linguistici. I trasformatori sono molto bravi a prestare attenzione a parti specifiche di un puzzle più grande.

Ma Jumper attribuisce gran parte del successo alla realizzazione di un modello prototipo che hanno potuto testare rapidamente. “Abbiamo ottenuto un sistema che dava risposte sbagliate a una velocità incredibile”, dice. “Questo ha reso facile iniziare a diventare molto audaci con le idee che si provano”.

Hanno riempito la rete neurale con quante più informazioni possibili sulle strutture proteiche, ad esempio su come le proteine di determinate specie abbiano sviluppato forme simili. E ha funzionato anche meglio di quanto si aspettassero. “Eravamo sicuri di aver fatto una scoperta rivoluzionaria”, afferma Jumper. “Eravamo sicuri che si trattasse di un incredibile progresso nelle idee”.

Ciò che non aveva previsto era che i ricercatori avrebbero scaricato il suo software e avrebbero iniziato a utilizzarlo immediatamente per così tante cose diverse. Normalmente, è la cosa che si ottiene dopo alcune iterazioni che ha il vero impatto, una volta risolti i problemi, afferma: “Sono rimasto sorpreso dal modo responsabile in cui gli scienziati lo hanno utilizzato, in termini di interpretazione e utilizzo pratico, secondo me nella misura giusta, né troppo né troppo poco”.

Ci sono progetti che spiccano in particolare?

La scienza delle api mellifere

Jumper cita un gruppo di ricerca che utilizza AlphaFold per studiare la resistenza alle malattie delle api mellifere. “Volevano capire questa particolare proteina mentre esaminavano fenomeni come il collasso delle colonie”, afferma. “Non avrei mai detto: ‘Sai, ovviamente AlphaFold sarà utilizzato per la scienza delle api mellifere'”.

Jumper sottolinea anche alcuni esempi di quelli che definisce usi off-label di AlphaFold, “nel senso che non era garantito che funzionasse”, in cui la capacità di prevedere le strutture proteiche ha aperto la strada a nuove tecniche di ricerca. “Il primo è ovviamente il progresso nella progettazione delle proteine”, afferma. “David Baker e altri hanno sfruttato appieno questa tecnologia”.

Baker, biologo computazionale dell’Università di Washington, è stato uno dei vincitori del premio Nobel per la chimica dello scorso anno, insieme a Jumper e Hassabis, per il suo lavoro sulla creazione di proteine sintetiche in grado di svolgere compiti specifici, come curare malattie o decomporre la plastica, meglio delle proteine naturali.

Baker e i suoi colleghi hanno sviluppato un proprio strumento basato su AlphaFold, chiamato RoseTTAFold. Ma hanno anche sperimentato AlphaFold Multimer per prevedere quali dei loro progetti di potenziali proteine sintetiche funzioneranno.

“In sostanza, se AlphaFold concorda con sicurezza con la struttura che stavi cercando di progettare [e] poi la realizzi e se AlphaFold dice ‘Non lo so’, non la realizzi. Questo da solo è stato un enorme miglioramento”. Può rendere il processo di progettazione 10 volte più veloce, afferma Jumper.

Un altro uso off-label che Jumper sottolinea: trasformare AlphaFold in una sorta di motore di ricerca. Cita due gruppi di ricerca separati che stavano cercando di capire esattamente come gli spermatozoi umani si legassero agli ovuli durante la fecondazione. Conoscevano una delle proteine coinvolte, ma non l’altra, dice: “Così hanno preso una proteina dell’ovulo nota e hanno analizzato tutte le 2.000 proteine della superficie dello sperma umano, trovandone una che AlphaFold era sicuro si legasse all’ovulo”. Sono poi riusciti a confermarlo in laboratorio.

“L’idea che si possa usare AlphaFold per fare qualcosa che prima non era possibile, ovvero esaminare 2.000 strutture alla ricerca di una risposta, è davvero straordinaria”, afferma.

Cinque anni dopo

Quando AlphaFold 2 è stato lanciato, ho chiesto ad alcuni dei primi utenti cosa ne pensassero. Le recensioni erano positive, ma la tecnologia era troppo nuova per poter valutare con certezza quale impatto avrebbe avuto nel lungo termine. Ho contattato una di quelle persone per sentire cosa ne pensasse a distanza di cinque anni.

Kliment Verba è un biologo molecolare che gestisce un laboratorio presso l’Università della California, a San Francisco. “È una tecnologia incredibilmente utile, non c’è dubbio”, mi dice. “La usiamo ogni giorno, continuamente”.

Ma è ben lungi dall’essere perfetta. Molti scienziati utilizzano AlphaFold per studiare gli agenti patogeni o per sviluppare farmaci. Ciò comporta l’osservazione delle interazioni tra più proteine o tra proteine e molecole ancora più piccole presenti nell’organismo. Ma AlphaFold è nota per essere meno accurata nel fare previsioni su più proteine o sulla loro interazione nel tempo.

Verba afferma che lui e i suoi colleghi utilizzano AlphaFold da abbastanza tempo da essersi abituati ai suoi limiti. “Ci sono molti casi in cui si ottiene una previsione e ci si ritrova a grattarsi la testa”, dice. “È reale o no? Non è del tutto chiaro, è una sorta di zona grigia”.

“È un po’ come ChatGPT”, aggiunge. “Sai, ti racconta frottole con la stessa sicurezza con cui darebbe una risposta vera”.

Tuttavia, il team di Verba utilizza AlphaFold (sia la versione 2 che la 3, perché hanno punti di forza diversi, afferma) per eseguire versioni virtuali dei propri esperimenti prima di eseguirli in laboratorio. Utilizzando i risultati di AlphaFold, possono restringere il campo di un esperimento o decidere che non vale la pena eseguirlo.

Questo permette di risparmiare molto tempo, dice: “Non ha sostituito nessun esperimento, ma li ha migliorati notevolmente”.

La nuova ondata  

AlphaFold è stato progettato per essere utilizzato per una serie di scopi. Ora diverse startup e laboratori universitari stanno sfruttando il suo successo per sviluppare una nuova ondata di strumenti più adatti alla scoperta di farmaci. Quest’anno, una collaborazione tra i ricercatori del MIT e l’azienda farmaceutica Recursion, specializzata in intelligenza artificiale, ha prodotto un modello chiamato Boltz-2, che prevede non solo la struttura delle proteine, ma anche la capacità delle potenziali molecole farmacologiche di legarsi al loro bersaglio.

Il mese scorso, la startup Genesis Molecular AI ha rilasciato un altro modello di previsione della struttura chiamato Pearl, che secondo l’azienda è più accurato di AlphaFold 3 per alcune query importanti per lo sviluppo di farmaci. Pearl è interattivo, quindi gli sviluppatori di farmaci possono inserire nel modello eventuali dati aggiuntivi di cui dispongono per guidarne le previsioni.

AlphaFold ha rappresentato un grande passo avanti, ma c’è ancora molto da fare, afferma Evan Feinberg, CEO di Genesis Molecular AI: “Stiamo ancora innovando in modo sostanziale, solo con un punto di partenza migliore rispetto al passato”.

Genesis Molecular AI sta riducendo i margini di errore da meno di due angstrom, lo standard di fatto del settore stabilito da AlphaFold, a meno di un angstrom, ovvero un decimillesimo di millimetro o la larghezza di un singolo atomo di idrogeno.

“Piccoli errori possono essere catastrofici per prevedere quanto un farmaco si legherà effettivamente al suo bersaglio”, afferma Michael LeVine, vicepresidente della modellazione e simulazione dell’azienda. Questo perché le forze chimiche che interagiscono a un angstrom possono smettere di farlo a due. “Si può passare da ‘Non interagiranno mai’ a ‘Interagiranno'”, afferma.

Con così tanta attività in questo settore, quanto tempo dovremo aspettare prima che nuovi tipi di farmaci arrivino sul mercato? Jumper è pragmatico. La previsione della struttura delle proteine è solo uno dei tanti passi, afferma: “Questo non era l’unico problema in biologia. Non è che ci mancasse solo la struttura di una proteina per curare qualsiasi malattia”.

Pensateci in questo modo, dice. In passato, trovare la struttura di una proteina poteva costare 100.000 dollari in laboratorio: “Se fossimo stati a soli centomila dollari dal raggiungere un obiettivo, sarebbe già stato raggiunto”.

Allo stesso tempo, i ricercatori stanno cercando modi per sfruttare al massimo questa tecnologia, afferma Jumper: “Stiamo cercando di capire come rendere la previsione della struttura una parte ancora più importante del problema, perché abbiamo un bel martello grande con cui colpirlo”.

In altre parole, vogliono trasformare tutto in chiodi? “Sì, trasformiamo tutto in chiodi”, dice. “Come possiamo rendere questa cosa che abbiamo reso un milione di volte più veloce una parte più importante del nostro processo?”

Qual è il prossimo passo?

La prossima mossa di Jumper? Vuole fondere il potere profondo ma limitato di AlphaFold con l’ampia portata degli LLM.

“Abbiamo macchine in grado di leggere la scienza. Sono in grado di fare ragionamenti scientifici”, afferma. “E possiamo costruire sistemi straordinari e sovrumani per la previsione della struttura delle proteine. Come si fa a far funzionare insieme queste due tecnologie?”

Questo mi fa pensare a un sistema chiamato AlphaEvolve, che è in fase di realizzazione da parte di un altro team di Google DeepMind. AlphaEvolve utilizza un LLM per generare possibili soluzioni a un problema e un secondo modello per verificarle, filtrando quelle inutili. I ricercatori hanno già utilizzato AlphaEvolve per fare una serie di scoperte pratiche nel campo della matematica e dell’informatica.

È questo che Jumper ha in mente? “Non mi sbilancio troppo sui metodi, ma sarei sorpreso se non vedessimo un impatto sempre maggiore dell’LLM sulla scienza”, afferma. “Penso che questa sia una questione aperta ed entusiasmante su cui non mi pronuncio. Si tratta ovviamente di speculazioni”.

Jumper aveva 39 anni quando ha vinto il Premio Nobel. Qual è il suo prossimo obiettivo?

“La cosa mi preoccupa”, dice. “Credo di essere il più giovane vincitore del premio per la chimica degli ultimi 75 anni”.

Aggiunge: “Sono più o meno a metà della mia carriera. Credo che il mio approccio a questo sia quello di cercare di fare cose più piccole, piccole idee su cui continuare a lavorare. La prossima cosa che annuncerò non deve necessariamente essere, sapete, il mio secondo tentativo di vincere il Nobel. Penso che questa sia la trappola”.