"La scoperta della droga è un processo molto lungo. In ogni fase, potresti scoprire che il tuo farmaco non è abbastanza buono e devi cercare un altro candidato, " spiega Xiao-Li Li di A*STAR. Il suo team ha vinto il "miglior lavoro" alla Conferenza internazionale sulla bioinformatica del 2016 per un nuovo approccio alla correzione di un problema intrinseco con i metodi di apprendimento automatico.
Simulazione computerizzata, o tecniche di scoperta di farmaci "in silico", può migliorare la precisione e ridurre il tirato fuori, strada estremamente costosa per portare un farmaco sul mercato, con una media di oltre 12 anni e 1,8 miliardi di dollari.
Molte simulazioni al computer, tuttavia, richiedono prima una "formazione" su set di dati di farmaci noti e dei loro bersagli. Questi dati possono includere informazioni aggiuntive sulla struttura 3D, Composizione chimica, e altre proprietà molecolari. Attingendo alle tendenze di questo database di dati noti, la simulazione può quindi prevedere le interazioni di molecole sconosciute, portando a nuovi farmaci e nuove proteine bersaglio.
Però, di tutti i farmaci e bersagli nel database, solo determinate combinazioni interagiranno. I potenziali accoppiamenti sono di gran lunga superati dalle coppie non interagenti denominate "squilibrio tra classi". Un ulteriore squilibrio è presente sotto forma di sottotipi di interazione diversi e diseguali, soprannominato 'squilibrio all'interno della classe'.
"Qualsiasi modello computazionale progettato per ottimizzare la precisione sarà distorto e tenderà a classificare le coppie sconosciute in classi maggioritarie o di non interazione, " dice Li. "Le classi di maggioranza sono meglio rappresentate nei dati rispetto alle classi di interazione di minoranza:questo distorce questi modelli e produce errori. Lo squilibrio dei dati è una questione impegnativa".
Il team di Li presso l'A*STAR Institute for Infocomm Research, ha cercato di superare questo problema sviluppando un algoritmo "consapevole dello squilibrio" che prevedesse in modo più accurato le interazioni farmaco-bersaglio sulla base di un database di 12, 600 interazioni note e circa 18 milioni di coppie note non interagenti. L'algoritmo è stato progettato per riconoscere meglio i gruppi di interazione sottorappresentati e migliorare i dati al loro interno.
Migliorando la capacità del modello informatico di concentrarsi sui dati più utili (le interazioni), il team ha creato un sistema che ha superato le tecniche di modellazione esistenti, prevedere il nuovo, interazioni farmaco-bersaglio sconosciute con elevata precisione.
Il futuro dell'apprendimento automatico dipende dall'intelligenza artificiale e dall'apprendimento avanzato come il "deep learning". Tuttavia, come aggiunge Li:"i dati sono fondamentali. Al fine di migliorare ulteriormente la nostra capacità predittiva, la prima cosa che possiamo fare è raccogliere dati più rilevanti su farmaci e bersagli".