24.000 studi di ricerca sul coronavirus disponibili su un unico database

Il set di dati mira ad accelerare lo sviluppo della ricerca scientifica per combattere la pandemia di Covid-19.

di Karen Hao

I ricercatori che collaborano con diverse organizzazioni hanno rilasciato il Covid-19 Open Research Dataset (CORD-19), che include oltre 24.000 articoli di ricerca di riviste peer-reviewed e fonti come bioRxiv e medRxiv (siti web in cui gli scienziati possono pubblicare documenti prestampati non ancora sottoposti a revisione paritaria).

La ricerca riguarda il SARS-CoV-2 (il nome scientifico per il coronavirus), il Covid-19 (il nome scientifico per la malattia) e il gruppo coronavirus. Rappresenta la più vasta raccolta di pubblicazioni scientifiche relative alla pandemia in corso e continuerà ad aggiornarsi in tempo reale man mano che verranno pubblicate ulteriori ricerche.

Il database è stato compilato su richiesta del White House Office of Science and Technology Policy (OSTP) ed è stato realizzato attraverso una collaborazione tra tre organizzazioni. La National Library of Medicine (NLM) presso il National Institutes of Health ha fornito l’accesso alle pubblicazioni scientifiche esistenti; Microsoft ha usato i suoi algoritmi per trovare articoli pertinenti; l’Allen Institute for Artificial Intelligence (AI2), un ente senza scopo di lucro, li ha convertiti da pagine Web e PDF in un formato strutturato che può essere elaborato da algoritmi. Il database è ora disponibile sul sito web Semantic Scholar di AI2.

Come parte del suo servizio Semantic Scholar, che consente alla comunità scientifica di muoversi facilmente all’interno della letteratura accademica, AI2 ha già elaborato il nuovo corpus, utilizzando le stesse tecniche di estrazione e analisi delle informazioni che applica a tutte le nuove ricerche.

Stanno emergendo informazioni chiave come autori, metodi, dati e citazioni per facilitare la valutazione rapida da parte degli scienziati del contributo che ciascun documento può dare alla ricerca esistente. Il sistema si avvale anche di modelli di linguaggio naturale all’avanguardia come ELMo e BERT per mappare le somiglianze tra i documenti.

Questa mappa sta ora alimentando una nuova funzionalità di Semantic Scholar che consente ai ricercatori di creare un feed di ricerca personalizzato basato sui loro interessi.

Gli scienziati stanno lottando contro il tempo per rispondere a domande urgenti sulla natura del virus nella speranza di arginarne la diffusione. Il database non solo li aiuta a trovare rapidamente l’informazione, ma semplifica anche gli approfondimenti con algoritmi di elaborazione in linguaggio naturale. OSTP ha lanciato un invito aperto ai ricercatori di IA a sviluppare nuove tecniche per l’estrazione di testo e dati che aiuteranno la comunità medica a selezionare più rapidamente le informazioni rilevanti.

(rp)

Related Posts
Total
0
Share