In un recente Recensioni chimiche articolo, I ricercatori spagnoli hanno pubblicato la prima revisione esaustiva delle metodologie all'avanguardia alla base dei motori di ricerca chimici, sistemi di riconoscimento di entità nominate e text mining.
Il campo in rapida crescita delle applicazioni dei big data nella ricerca biomedica, insieme all'uso di tecnologie di apprendimento automatico e intelligenza artificiale per l'estrazione di dati di testo, ha portato a strumenti promettenti. Gli autori scrivono, "Questa revisione è organizzata per servire da guida pratica ai ricercatori che entrano in questo campo, ma anche per aiutarli a immaginare i prossimi passi in questo campo emergente della scienza dei dati".
"Attraverso il rilascio di set di dati Gold Standard e l'organizzazione di numerosi eventi di benchmark delle sfide della community, la Biological Text Mining Unit ha svolto un ruolo fondamentale nello sviluppo e nella valutazione degli attuali sistemi di estrazione di testi chimici, come evidenziato in questo articolo, " spiega Martin Krallinger, capo dell'unità e co-primo autore della rivista.
Un'enorme quantità di dati non strutturati
Una parte considerevole dei dati rilevanti dal punto di vista biomedico è disponibile solo sotto forma di dati non strutturati. Questo tipo di dati include letteratura scientifica in rapida crescita, brevetti di chimica farmaceutica, cartelle cliniche elettroniche e documenti di sperimentazione clinica. Infatti, ogni anno, più di 20, 000 nuovi composti vengono pubblicati su riviste di chimica medica e biologica.
Essere in grado di trasformare dati di ricerca biomedica non strutturati in database strutturati che possono essere elaborati in modo più efficiente dalle macchine o interrogati dagli esseri umani è fondamentale per una gamma di applicazioni eterogenee. Questi includono l'identificazione di nuovi bersagli farmacologici e sonde chimiche per convalidare/scartare quei nuovi potenziali bersagli, riutilizzo di farmaci approvati, l'identificazione di eventi avversi da farmaci o il recupero della biologia dei sistemi associati a reti chimico-malattie o chimico-gene.
Come strategia terapeutica per trattare i bisogni medici, i composti chimici costituiscono un tipo di entità chiave di rilevanza critica per la ricerca biomedica. "La costruzione di grandi basi di conoscenza chimica, integrare le informazioni chimiche con i dati biologici e clinici, è fondamentale per identificare e convalidare nuovi bersagli terapeutici per esigenze mediche non soddisfatte e per accelerare il processo di scoperta di farmaci, "dice Julen Oyarzabal, direttore di Translational Sciences presso CIMA e co-leader di questo rapporto.