Gli algoritmi PNL progettati per parole e frasi possono essere utilizzati anche per interpretare i cambiamenti genetici nei virus, accelerando il lavoro di laboratorio per individuare nuove varianti.
di Will Douglas Heaven
Una volta Galileo osservò che il libro della natura è scritto in caratteri matematici. La biologia potrebbe essere scritta a parole. Gli algoritmi di elaborazione del linguaggio naturale (NLP) sono ora in grado di generare sequenze proteiche e prevedere le mutazioni del virus, inclusi i cambiamenti chiave che aiutano il coronavirus eludere il sistema immunitario.
L’intuizione chiave che lo rende possibile è che molte proprietà dei sistemi biologici possono essere interpretate in termini di parole e frasi. “Stiamo imparando il linguaggio dell’evoluzione”, afferma Bonnie Berger, biologa computazionale del Massachusetts Institute of Technology. Negli ultimi anni, alcuni gruppi di ricercatori, compresi i team del laboratorio del genetista George Church e di Salesforce, hanno dimostrato che le sequenze proteiche e i codici genetici possono essere modellati utilizzando tecniche di PNL.
In uno studio pubblicato su “Science”, Berger e i suoi colleghi mettono insieme diversi di questi filoni e usano la PNL per prevedere le mutazioni che consentono ai virus di evitare di essere rilevati dagli anticorpi del sistema immunitario umano, un processo noto come fuga virale dal sistema immunitario. L’idea di base è che la “lettura” di un virus da parte di un sistema immunitario è analoga all’interpretazione di una frase da parte di un essere umano.
“È un documento importante, che si basa sulle acquisizioni del lavoro precedente”, afferma Ali Madani, uno scienziato di Salesforce, che sta utilizzando la PNL per prevedere le sequenze proteiche. Il team di Berger utilizza due diversi concetti linguistici: grammatica e semantica. L’idoneità genetica o evolutiva di un virus – caratteristiche come la capacità di infettare un ospite – può essere interpretata in termini di correttezza grammaticale. Un virus infettivo di successo è grammaticalmente corretto, uno senza successo non lo è.
Allo stesso modo, le mutazioni di un virus possono essere interpretate in termini di semantica. Le mutazioni che caratterizzano un virus nel suo ambiente – come i cambiamenti nelle sue proteine di superficie che lo rendono invisibile a certi anticorpi – alterano il suo significato. I virus con mutazioni diverse possono avere significati diversi e un virus con un significato diverso potrebbe aver bisogno di anticorpi diversi per leggerlo.
Per modellare queste proprietà, i ricercatori hanno utilizzato una LSTM, un tipo di rete neurale che precede quelle basate su trasformatori utilizzate da modelli di linguaggio di grandi dimensioni come GPT-3. Queste reti più vecchie possono essere addestrate su una quantità di dati molto inferiore rispetto ai trasformatori e continuano a funzionare bene per molte applicazioni.
Invece di milioni di frasi, hanno addestrato il modello PNL su migliaia di sequenze genetiche prese da tre diversi virus: 45.000 sequenze uniche per un ceppo di influenza, 60.000 per un ceppo di HIV e tra 3.000 e 4.000 per un ceppo di Sars-Cov -2, il virus che causa il covid-19. “Ci sono meno dati per il coronavirus perché c’è stata meno sorveglianza”, dice Brian Hie, uno studente laureato al MIT, che ha costruito i modelli.
I modelli PNL funzionano codificando le parole in uno spazio matematico in modo tale che le parole con significati simili siano più vicine tra loro rispetto alle parole con significati diversi. Questo meccanismo è noto come incorporamento. Per i virus, l’incorporamento delle sequenze genetiche ha raggruppato i virus in base alla somiglianza delle loro mutazioni.
Lo scopo generale dell’approccio è identificare le mutazioni che potrebbero consentire a un virus di sfuggire a un sistema immunitario senza renderlo meno infettivo, ovvero mutazioni che modificano il significato di un virus senza renderlo grammaticalmente scorretto. Per testare lo strumento, il team ha utilizzato una metrica comune per valutare le previsioni fatte da modelli di apprendimento automatico che ottengono un punteggio di precisione su una scala compresa tra 0,5 (casuale) e 1 (perfetto).
In questo caso, hanno preso le principali mutazioni identificate dallo strumento e, utilizzando virus reali in un laboratorio, hanno verificato quante di esse fossero effettive mutazioni di elusione. I loro risultati andavano da 0,69 per l’HIV a 0,85 per un ceppo di coronavirus. A loro parere, i risultati sono migliori di quelli di altri modelli all’avanguardia.
Un sistema di preallarme
Sapere quali mutazioni potrebbero essere in arrivo aiuterebbe gli ospedali e le autorità sanitarie pubbliche a pianificare in anticipo. Per esempio, chiedere al modello di dire quanto un ceppo influenzale è mutato dall’anno precedente, fornirebbe un’idea di come funzioneranno gli anticorpi che le persone hanno già sviluppato nell’anno in corso.
Il team afferma che ora sta eseguendo modelli su nuove varianti del coronavirus, tra cui la cosiddetta mutazione del Regno Unito, la mutazione danese del visone e varianti che arrivano da Sud Africa, Singapore e Malesia. Hanno trovato un alto potenziale di elusione dal sistema immunitario in tutte, anche se non è stato ancora testato in natura.
Ma il modello ha mancato un cambiamento nella variante del Sud Africa che ha sollevato preoccupazioni perché potrebbe consentirgli di sfuggire ai vaccini e si sta cercando di capire il motivo. “La variante consiste in molteplici mutazioni e crediamo che stia entrando in gioco un effetto combinatorio”, spiega Berger.
L’uso della PNL accelera un processo lento. In precedenza, il genoma del virus prelevato da un paziente covid-19 in ospedale poteva essere sequenziato e le sue mutazioni ricreate e studiate in laboratorio. Ma ciò può richiedere settimane, afferma Bryan Bryson, biologo del MIT, che collabora al progetto. Il modello PNL prevede immediatamente potenziali mutazioni, il che focalizza il lavoro di laboratorio e lo velocizza.
“Nuove sequenze di virus stanno uscendo ogni settimana” dice Bryson. Ma siamo solo all’inizio. Trattare le mutazioni genetiche come cambiamenti di significato potrebbe essere applicato in altre forme a tutta la biologia. Hie pensa che il loro approccio possa essere valido per la resistenza ai farmaci. “Per esempio, per una proteina del cancro che acquisisce resistenza alla chemioterapia o per una proteina batterica che acquisisce resistenza a un antibiotico”, egli dice. Queste mutazioni possono ancora essere considerate come cambiamenti di significato: “Ci sono molti modi creativi in cui possiamo iniziare a interpretare i modelli linguistici”.
“Penso che la biologia sia sull’orlo di una rivoluzione”, afferma Madani. “Ora stiamo passando dalla semplice raccolta di grandi quantità di dati alla loro comprensione in profondità”. I ricercatori stanno osservando i progressi della PNL e escogitando nuove analogie tra linguaggio e biologia per trarne vantaggio. Ma Bryson, Berger e Hie credono che questo crossover potrebbe andare in entrambe le direzioni, con nuovi algoritmi di PNL ispirati a concetti biologici.
Immagine di: Ms Tech
(rp)