Credito:CC0 Dominio pubblico
I Big Data sono diventati onnipresenti negli ultimi anni, e specialmente in discipline con modelli di dati eterogenei e complessi. Questo è particolarmente vero per la chimica. In alcuni modi, i composti chimici possono essere confrontati con sinonimi in linguistica perché un particolare composto può essere rappresentato in vari modi. A complicare ulteriormente le cose, alcuni di loro non hanno nemmeno una struttura specifica ed esistono solo come un amalgama di forme che si trasformano l'una nell'altra. Ecco perché è importante che i ricercatori sappiano se hanno a che fare con composti diversi o con rappresentazioni diverse dello stesso.
Qualche volta, i database presentano anche errori derivanti dalla disattenzione dell'utente. È necessario un software speciale per rilevare e correggere tali errori. Nel caso della chimica organica, le reazioni sono notoriamente difficili da analizzare. Ecco perché i dati sulle reazioni in chemioinformatica sono molto meno sviluppati delle informazioni sulle singole molecole.
Il Laboratorio di Chemioinformatica e Modellistica Molecolare (Università Federale di Kazan) lavora su questo problema dal 2013. I ricercatori hanno imparato a prevedere le caratteristiche di reazione, trovare condizioni di reazione ottimali, e rilevare e correggere errori di dati. Di conseguenza, è sorto un database unico di caratteristiche di reazione. Attualmente, include 3,5 milioni di voci. KFU è l'unico membro russo di Reaxys R&D Collaboration, un collettivo che lavora su banche dati chimiche.
In questo nuovo progetto, intitolato CGRtools, I ricercatori di KFU hanno risolto una serie di problemi per gestire meglio le informazioni sulla reazione. La libreria software è significativamente più ricca di funzionalità rispetto a tutti gli strumenti esistenti. CGRtools supporta molecole e reazioni come oggetti. CGRtools tratta gli oggetti chimici in modo simile ai tipi di dati standard di Python come interi, stringhe, ecc. Ogni oggetto chimico è hashable a causa della canonicalizzazione della numerazione degli atomi. Gli oggetti supportano l'ereditarietà di classe trasparente, che aumenta i metodi e gli attributi esistenti senza rompere quelli esistenti.
È importante sottolineare che la libreria è disponibile gratuitamente su https://github.com/cimmkzn/CGRtools.