Gli autori hanno combinato set di dati proprietari (GSK) e pubblicati (CCDC) per addestrare meglio i modelli di apprendimento automatico (ML) per la scoperta di farmaci. Credito:Alex Moldavo.
I polimorfi sono molecole che hanno differenti disposizioni di impaccamento molecolare nonostante composizioni chimiche identiche. In un recente documento, i ricercatori di GlaxoSmithKline (GSK) e del Cambridge Crystallographic Data Center (CCDC) hanno combinato i loro set di dati proprietari (GSK) e pubblicati (CCDC) per addestrare meglio i modelli di apprendimento automatico (ML) per prevedere polimorfi stabili da utilizzare in nuovi candidati farmaci.
Quali sono le principali differenze tra i set di dati CCDC e GSK?
Il CCDC cura e mantiene il Cambridge Structural Database (CSD). Per il secolo scorso, scienziati di tutto il mondo hanno contribuito pubblicati, strutture cristalline sperimentali al CSD, che oggi conta oltre 1,1 milioni di strutture. Gli autori dell'articolo hanno utilizzato un sottoinsieme di farmaci del CSD combinato con strutture di GSK. Le strutture GSK sono state raccolte in diverse fasi della pipeline farmaceutica e non sono limitate ai prodotti commercializzati. Co-autore Dott. Jason Cole, ricercatore senior nel team di ricerca e sviluppo del CCDC, ha spiegato perché le strutture raccolte nelle diverse fasi della pipeline di scoperta dei farmaci sono così importanti.
"Nella fase iniziale della scoperta di farmaci, una struttura cristallina può aiutare a razionalizzare gli effetti conformazionali, Per esempio, o caratterizzare la chimica di una nuova entità chimica dove altre tecniche hanno portato all'ambiguità, "Cole ha detto. "Più tardi nel processo, quando una nuova entità chimica viene studiata come molecola candidata, le strutture cristalline sono fondamentali in quanto informano la selezione della forma e possono in seguito aiutare a superare i problemi di formulazione e pastigliatura".
Queste informazioni possono aiutare i ricercatori a dare priorità ai loro sforzi, risparmiando tempo e potenzialmente vite umane lungo la strada.
"Capendo una gamma di strutture cristalline, gli scienziati possono anche valutare il rischio che una data forma sia instabile a lungo termine, " Cole ha detto. "Una caratterizzazione completa del paesaggio strutturale porta alla fiducia nel prendere una forma in avanti".
In che modo i modelli ML nella scienza farmaceutica traggono vantaggio da più set di dati?
I set di dati industriali riflettono più della semplice scienza; riflettono le scelte culturali all'interno di una data organizzazione.
"Troverai co-cristalli solo se cerchi co-cristalli, "Cole ha detto, come esempio. "La maggior parte delle aziende preferisce formulare un o non legato, droga. Si può presumere che i tipi di strutture in un insieme industriale riflettano decisioni consapevoli di ricercare forme di tipi dati, considerando che vengono posti meno limiti ai ricercatori che contribuiscono al CSD."
I modelli ML beneficiano di due elementi chiave:volume e specificità dei dati. Ecco perché è così utile accoppiare il volume e la varietà di dati nel CSD con set di dati proprietari.
"Grandi quantità di dati portano a previsioni più sicure, " Cole ha detto. "I dati che sono più direttamente rilevanti per il problema portano a previsioni più accurate. Nelle previsioni che utilizzano il software CCDC, selezioniamo un sottoinsieme delle voci più rilevanti che sia abbastanza grande da dare fiducia. Il set GSK è destinato ad avere composti altamente rilevanti per altri composti nel loro portafoglio commerciale. Quindi il software per la creazione di modelli può usarli".
I ricercatori industriali che lavorano con dati altamente rilevanti possono incorrere in problemi quando non hanno abbastanza per generare modelli sicuri.
"Considera che il software CSD in genere seleziona circa duemila strutture dagli 1,1 milioni nel CSD, " Ha detto Cole. "Il set industriale è minuscolo in confronto, ma potresti scegliere dire, 40 o 50 strutture di grande rilevanza. Avresti dati insufficienti per costruire un buon modello solo con quello, ma i composti aggiunti dal CSD integrano il set di dati. In sostanza, includendo i set GSK e CSD otteniamo il meglio di entrambi i mondi:tutte le strutture industriali altamente rilevanti e un insieme di strutture CSD piuttosto rilevanti insieme per costruire un modello di alta qualità."
Perché i polimorfi rappresentano un rischio per l'industria farmaceutica?
Le diverse disposizioni di imballaggio significano che un polimorfo potrebbe essere più adatto per la consegna terapeutica, mentre un'altra forma dello stesso composto potrebbe non farlo. I ricercatori utilizzano database di strutture cristalline per fare previsioni basate sulla conoscenza sul fatto che un potenziale nuovo farmaco sia composto da un buon forma stabile che i produttori possono realizzare, negozio, e consegnare in modo terapeutico. Gli autori di GSK e CCDC hanno completato un'analisi robusta delle strutture cristalline di piccole molecole contenenti i risultati della diffrazione dei raggi X di GSK e delle sue società storiche negli ultimi 40 anni. Hanno quindi combinato questi risultati con un sottoinsieme di strutture di farmaci dal CSD del CCDC, che contiene oltre 1,1 milioni di strutture cristalline organiche e metallo-organiche di piccole molecole provenienti da ricercatori di tutto il mondo.