AI rivela un processo di attivazione genetica

L’apprendimento automatico consente un’attesa svolta con potenziali applicazioni in biomedicina.

di Lisa Ovi

Gli scienziati sanno da tempo che i geni umani vengono attivati tramite istruzioni codificate nel preciso ordine delle basi (A, C, G e T) che compongono il nostro DNA.

Con l’aiuto dell’intelligenza artificiale, ricercatori della University of California San Diego hanno risolto un mistero di lunga data sul processo di attivazione del DNA. La loro scoperta, che hanno definito Downstream Core Promoter Region (DPR), potrebbe essere utilizzata per controllare l’attivazione genica nelle applicazioni biotecnologiche e biomediche.

Si sa che quasi il 25% dei nostri geni è trascritto da sequenze che assomigliano a TATAAA (prendono infatti il nome di “TATA box”). Come vengano attivati gli altri tre quarti dei geni è rimasto un mistero a causa dell’enorme numero di possibili sequenze di basi del DNA, tra cui si nascondevano le informazioni legate alla loro attivazione.

Sotto la direzione di James T. Kadonaga, illustre professore della Divisione di Scienze Biologiche della UC San Diego e autore senior dello studio pubblicato da Nature, i ricercatori hanno potuto descrivere l’identificazione di un codice di attivazione del DNA utilizzato non meno frequentemente della TATA box negli esseri umani. L’identificazione del DPR grazie all’apprendimento automatico, rivela un passaggio chiave nell’attivazione di circa un quarto, se non un terzo dei nostri geni.

Kadonaga e colleghi avevano identificato una nuova sequenza di attivazione genica, chiamata DPE (corrispondente a una parte del DPR), già nel 1996 nei moscerini della frutta, per poi trovare una singola sequenza simile negli esseri umani. Da allora, decifrare i dettagli e la prevalenza del DPE umano si è fatto più complesso. Vennero trovate solo due o tre sequenze attive simili alla DPE in decine di migliaia di geni umani. A vent’anni di distanza, per risolvere il mistero, Kadonaga ha stretto una collaborazione con l’autore principale dello studio Long Vo ngoc, Cassidy Yunjing Huang, Claudia Merano e Jack Cassidy, uno scienziato informatico in pensione che ha aiutato il team a sfruttare i potenti strumenti dell’intelligenza artificiale.

I ricercatori hanno raccolto 500.000 versioni casuali di sequenze di DNA e valutato l’attività DPR di ciascuna, dopo di che, 200.000 versioni sono state utilizzate per creare un modello di apprendimento automatico in grado di prevedere con precisione l’attività DPR nel DNA umano. L’abilità predittiva risultante si è rivelata tanto accurata da permettere la creazione di un ulteriore modello di apprendimento automatico per identificare le sequenze di TATA box.

Dai risultati ottenuti, non solo è stata chiaramente confermata l’esistenza del DPR nei geni umani, ma la sua frequenza di occorrenza appare paragonabile a quella delle TATA box. È stata inoltre osservata un’intrigante dualità tra DPR e TATA. I geni attivati con le sequenze TATA box non presentano sequenze DPR e viceversa.

Il modello di apprendimento automatico è stato in grado di decifrare il codice laddove la mente umana si perdeva nell’assenza di una sequenza chiaramente definita del DPR. In futuro, i ricercatori prevedono di proseguire nell’utilizzo dell’intelligenza artificiale per analizzare i modelli di sequenza del DNA ed arrivare a comprendere e controllare l’attivazione genica nelle cellule umane, una conoscenza molto utile nel campo della biotecnologia e delle scienze biomediche.

(lo)

Related Posts
Total
0
Share