Gli scienziati stanno usando Theta, un sistema informatico ad alte prestazioni presso l'Argonne Leadership Computing Facility, per aiutarli ad analizzare le proteine COVID-19. Credito:Laboratorio nazionale Argonne
Una nuova pipeline di strumenti di intelligenza artificiale e simulazione potrebbe rendere il processo di screening dei candidati ai farmaci per COVID-19 50, 000 volte più veloce.
Per trovare un farmaco in grado di fermare il virus SARS-CoV-2, gli scienziati vogliono esaminare miliardi di molecole per la giusta combinazione di proprietà. Il processo è solitamente rischioso e lento, spesso impiegando diversi anni. Però, un team internazionale di scienziati afferma di aver trovato un modo per rendere il processo 50, 000 volte più veloce utilizzando l'intelligenza artificiale (AI).
Dieci organizzazioni, tra cui l'Argonne National Laboratory del Dipartimento dell'Energia degli Stati Uniti (DOE), hanno sviluppato una pipeline di tecniche di intelligenza artificiale e simulazione per accelerare la scoperta di promettenti farmaci candidati per COVID-19, la malattia causata dal virus SARS-CoV-2. Il gasdotto si chiama IMPECCABILE, abbreviazione di Integrated Modeling PipelinE per COVID Cure valutando i lead migliori.
"Con l'intelligenza artificiale che abbiamo implementato, siamo stati in grado di esaminare quattro miliardi di potenziali candidati a farmaci nel giro di un giorno, mentre gli strumenti di calcolo esistenti potrebbero realisticamente schermare solo da uno a 10 milioni, " ha detto Thomas Brettin, responsabile del programma strategico presso Argonne.
Perché è necessario un approccio integrato
IMPECCABILE integra molteplici tecniche di elaborazione dati, modellazione e simulazione basate sulla fisica, e apprendimento automatico, una forma di intelligenza artificiale che utilizza modelli nei dati per generare modelli predittivi.
"Integriamo più approcci perché non esiste un singolo algoritmo o metodo che possa funzionare da solo con grande efficienza e precisione, ", ha detto il biologo computazionale Argonne Arvind Ramanathan. "Se ci affidassimo solo alle simulazioni, ci vorrebbero anni per trovare un probabile obiettivo, anche con i supercomputer più veloci."
Componenti della pipeline
All'inizio del gasdotto, le tecniche computazionali vengono utilizzate per calcolare le proprietà di base di miliardi di molecole. Questi dati vengono utilizzati nella fase successiva della pipeline per creare modelli di apprendimento automatico in grado di prevedere la probabilità che una determinata molecola si leghi a una proteina virale nota. Quelle ritenute più promettenti vengono quindi simulate su sistemi di calcolo ad alte prestazioni.
"Le proteine sono strutture fluide, e le simulazioni ci mostrano per loro nuove conformazioni. Li usiamo per migliorare i nostri modelli di machine learning, " ha detto lo scienziato computazionale di Argonne Austin Clyde. "Il processo iterativo continua fino a quando non possiamo convalidare che le molecole che abbiamo identificato come suscettibili di legarsi alle proteine SARS-CoV-2 sono promettenti".
Vengono anche raccolti set di dati sperimentali molto grandi da migliaia di cristalli proteici utilizzando i raggi X presso l'Advanced Photon Source (APS), un DOE Office of Science User Facility nel campus di Argonne. La tecnica che stanno usando per ottenere questi dati è nota come cristallografia a raggi X. Con esso, i ricercatori possono acquisire immagini dettagliate delle proteine virali e dei loro stati chimici per migliorare l'accuratezza dei loro modelli di apprendimento automatico.
"Dall'inizio della pandemia, siamo stati in grado di determinare oltre 45 strutture cristalline ad alta risoluzione delle proteine SARS-CoV-2 e dei loro complessi con altri composti. Questa informazione, quando combinato con l'analisi computazionale, può fornire spunti critici per ulteriori sforzi di progettazione di farmaci basati sulla struttura e consentire la progettazione di inibitori ad alta affinità e, in definitiva terapie che possono essere utilizzate per trattare COVID-19, " ha detto Andrzej Joachimiak, direttore del Centro di Biologia Strutturale (SBC) alla linea di luce 19-ID-D dell'APS.
Gli obiettivi finali della pipeline sono (1) comprendere la funzione delle proteine virali; (2) identificare molecole con un alto potenziale di legame con queste proteine e, di conseguenza, bloccare la proliferazione di SARS-CoV-2; e (3) fornire queste informazioni a progettisti e sviluppatori di farmaci per ulteriori ricerche e sviluppi.
"A differenza dell'approccio tradizionale, dove ti affidi allo scienziato per pensare davvero duramente e, in base a ciò che sanno, inventare idee per una molecola, con la nostra pipeline puoi vagliare automaticamente un numero enorme di molecole, aumentando drasticamente le tue possibilità di trovare un candidato probabile, "ha detto Ian Foster, direttore della divisione Data Science and Learning di Argonne.