L'intelligenza artificiale servirà a sviluppare un sistema di controllo della rete che non solo rileva e reagisce ai problemi, ma può anche prevederli ed evitarli. Credito:CC0 Dominio Pubblico
I ricercatori del MIT hanno sviluppato un sistema crittografico che potrebbe aiutare le reti neurali a identificare promettenti farmaci candidati in enormi set di dati farmacologici, mantenendo i dati privati. Il calcolo sicuro eseguito su una scala così massiccia potrebbe consentire un'ampia messa in comune di dati farmacologici sensibili per la scoperta predittiva di farmaci.
Dataset di interazioni farmaco-bersaglio (DTI), che mostrano se i composti candidati agiscono sulle proteine bersaglio, sono fondamentali per aiutare i ricercatori a sviluppare nuovi farmaci. I modelli possono essere addestrati per elaborare set di dati di DTI noti e quindi, utilizzando tali informazioni, trovare nuovi farmaci candidati.
Negli ultimi anni, aziende farmaceutiche, università, e altre entità sono diventate disponibili a mettere in comune i dati farmacologici in database più grandi che possono migliorare notevolmente l'addestramento di questi modelli. A causa di questioni di proprietà intellettuale e altri problemi di privacy, però, questi set di dati rimangono di portata limitata. I metodi di crittografia per proteggere i dati sono così intensivi dal punto di vista computazionale che non si adattano bene ai set di dati oltre, dire, decine di migliaia di DTI, che è relativamente piccolo.
In un articolo pubblicato su Scienza , i ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT descrivono una rete neurale addestrata e testata in modo sicuro su un set di dati di oltre un milione di DTI. La rete sfrutta i moderni strumenti crittografici e le tecniche di ottimizzazione per mantenere privati i dati di input, correndo in modo rapido ed efficiente su larga scala.
Gli esperimenti del team mostrano che la rete funziona più velocemente e con maggiore precisione rispetto agli approcci esistenti; può elaborare enormi set di dati in giorni, mentre altri framework crittografici richiederebbero mesi. Inoltre, la rete ha identificato diverse nuove interazioni, compreso uno tra il farmaco per la leucemia imatinib e un enzima ErbB4, le cui mutazioni sono state associate al cancro, che potrebbe avere un significato clinico.
"Le persone si rendono conto di dover mettere in comune i propri dati per accelerare notevolmente il processo di scoperta dei farmaci e consentirci, insieme, fare progressi scientifici nella risoluzione di importanti malattie umane, come il cancro o il diabete. Ma non hanno buoni modi per farlo, " dice l'autore corrispondente Bonnie Berger, il Professore di Matematica Simons e ricercatore principale al CSAIL. "Con questo lavoro, forniamo un modo per queste entità di raggruppare e analizzare in modo efficiente i loro dati su una scala molto ampia".
Insieme a Berger sul giornale ci sono i co-primi autori Brian Hie e Hyunghoon Cho, entrambi laureati in ingegneria elettrica e informatica e ricercatori del gruppo di Calcolo e Biologia del CSAIL.
Dati di "condivisione segreta"
Il nuovo documento si basa sul lavoro precedente dei ricercatori nel proteggere la riservatezza dei pazienti negli studi genomici, che trovano collegamenti tra particolari varianti genetiche e l'incidenza della malattia. Che i dati genomici potrebbero potenzialmente rivelare informazioni personali, quindi i pazienti possono essere riluttanti ad arruolarsi negli studi. In quel lavoro, Berger, Cho, e un ex dottorato di ricerca della Stanford University. studente ha sviluppato un protocollo basato su un framework di crittografia chiamato "condivisione segreta, " che analizza in modo sicuro ed efficiente set di dati di un milione di genomi. Al contrario, le proposte esistenti potrebbero gestire solo poche migliaia di genomi.
La condivisione segreta viene utilizzata nel calcolo multiparte, dove i dati sensibili sono suddivisi in "condivisioni" separate tra più server. Durante il calcolo, ciascuna parte avrà sempre e solo la sua parte di dati, che appare del tutto casuale. Collettivamente, però, i server possono ancora comunicare ed eseguire operazioni utili sui dati privati sottostanti. Alla fine del calcolo, quando serve un risultato, le parti uniscono le loro azioni per rivelare il risultato.
"Abbiamo usato il nostro lavoro precedente come base per applicare la condivisione segreta al problema della collaborazione farmacologica, ma non ha funzionato subito, "dice Berger.
Un'innovazione chiave è stata la riduzione del calcolo necessario nella formazione e nei test. I modelli predittivi di scoperta dei farmaci esistenti rappresentano le strutture chimiche e proteiche dei DTI come grafici o matrici. Questi approcci, però, scala quadraticamente, o quadrato, con il numero di DTI nel set di dati. Fondamentalmente, l'elaborazione di queste rappresentazioni diventa estremamente impegnativa dal punto di vista computazionale man mano che la dimensione del set di dati cresce. "Anche se può andare bene per lavorare con i dati grezzi, se lo provi in un calcolo sicuro, è irrealizzabile, "Ciao dice.
I ricercatori hanno invece addestrato una rete neurale che si basa su calcoli lineari, che scalano in modo molto più efficiente con i dati. "Avevamo assolutamente bisogno di scalabilità, perché stiamo cercando di fornire un modo per raggruppare i dati [in] set di dati molto più grandi, " dice Cho.
I ricercatori hanno addestrato una rete neurale sul set di dati STITCH, che ha 1,5 milioni di DTI, rendendolo il più grande set di dati disponibile pubblicamente nel suo genere. In allenamento, la rete codifica ogni composto farmacologico e struttura proteica come una semplice rappresentazione vettoriale. Questo essenzialmente condensa le strutture complicate come 1 e 0 che un computer può facilmente elaborare. Da quei vettori, la rete apprende quindi i modelli di interazione e non interazione. Nutrite nuove coppie di composti e strutture proteiche, la rete quindi prevede se interagiranno.
La rete ha anche un'architettura ottimizzata per l'efficienza e la sicurezza. Ogni livello di una rete neurale richiede una funzione di attivazione che determina come inviare le informazioni al livello successivo. Nella loro rete, i ricercatori hanno utilizzato una funzione di attivazione efficiente chiamata unità lineare rettificata (ReLU). Questa funzione richiede solo un singolo, confronto numerico sicuro di un'interazione per determinare se inviare (1) o non inviare (0) i dati al livello successivo, pur non rivelando mai nulla sui dati effettivi. Questa operazione può essere più efficiente nel calcolo sicuro rispetto a funzioni più complesse, quindi riduce il carico computazionale garantendo al tempo stesso la privacy dei dati.
"La ragione per cui è importante è che vogliamo farlo all'interno del framework di condivisione segreta... e non vogliamo aumentare il sovraccarico computazionale, " dice Berger. Alla fine, "nessun parametro del modello viene rivelato e tutti i dati di input:i farmaci, obiettivi, e le interazioni sono mantenute private."
Trovare interazioni
I ricercatori hanno contrapposto la loro rete a diversi stati dell'arte, modelli di testo in chiaro (non crittografati) su una parte dei DTI noti di DrugBank, un popolare set di dati contenente circa 2, 000 DTI. Oltre a mantenere privati i dati, la rete dei ricercatori ha superato tutti i modelli in termini di accuratezza della previsione. Solo due modelli di base potrebbero ragionevolmente adattarsi al set di dati STITCH, e il modello dei ricercatori ha raggiunto quasi il doppio della precisione di quei modelli.
I ricercatori hanno anche testato coppie farmaco-bersaglio senza interazioni elencate in STITCH, e ha trovato diverse interazioni farmacologiche clinicamente stabilite che non erano elencate nel database ma dovrebbero esserlo. Nella carta, i ricercatori elencano le previsioni più forti, tra cui:droloxifene e un recettore per gli estrogeni, che ha raggiunto studi clinici di fase III come trattamento per il cancro al seno; e seocalcitol e un recettore della vitamina D per il trattamento di altri tumori. Cho e Hie hanno convalidato in modo indipendente le nuove interazioni con il punteggio più alto tramite organizzazioni di ricerca a contratto.
Prossimo, i ricercatori stanno lavorando con i partner per stabilire la loro pipeline collaborativa in un ambiente reale. "Siamo interessati a creare un ambiente per il calcolo sicuro, così possiamo eseguire il nostro protocollo sicuro con dati reali, " dice Cho.
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.