Due colonie batteriche che hanno formato anelli viola a causa del gene drive che i ricercatori hanno impiantato in loro. Un nuovo modello di apprendimento automatico accelera notevolmente questa scienza prevedendo l'interazione di dozzine di variabili biologiche. Credito:Lingchong You, Duke University
Gli ingegneri biomedici della Duke University hanno ideato un approccio di apprendimento automatico per modellare le interazioni tra variabili complesse nei batteri ingegnerizzati che altrimenti sarebbero troppo ingombranti da prevedere. I loro algoritmi sono generalizzabili a molti tipi di sistemi biologici.
Nel nuovo studio, i ricercatori hanno addestrato una rete neurale per prevedere i modelli circolari che sarebbero stati creati da un circuito biologico incorporato in una coltura batterica. Il sistema ha funzionato 30, 000 volte più veloce del modello computazionale esistente.
Per migliorare ulteriormente la precisione, il team ha ideato un metodo per riqualificare il modello di apprendimento automatico più volte per confrontare le risposte. Poi l'hanno usato per risolvere un secondo sistema biologico che richiede computazionalmente in modo diverso, mostrando che l'algoritmo può funzionare per sfide disparate.
I risultati appaiono online il 25 settembre sulla rivista Comunicazioni sulla natura .
"Questo lavoro è stato ispirato da Google che mostra che le reti neurali potrebbero imparare a battere un essere umano nel gioco da tavolo Go, " ha detto Lingchong You, professore di ingegneria biomedica alla Duke.
"Anche se il gioco ha regole semplici, ci sono troppe possibilità per un computer di calcolare la migliore opzione successiva in modo deterministico, "Hai detto. "Mi chiedevo se un simile approccio potesse essere utile per far fronte a certi aspetti della complessità biologica che ci troviamo di fronte".
La sfida che You e il suo associato post-dottorato Shangying Wang hanno dovuto affrontare era determinare quale insieme di parametri potesse produrre un modello specifico in una coltura di batteri seguendo un circuito genetico ingegnerizzato.
Una colonia batterica modificata geneticamente per includere un circuito genetico forma un anello viola man mano che cresce. I ricercatori stanno usando l'apprendimento automatico per scoprire le interazioni tra dozzine di variabili che influenzano le proprietà dell'anello come il suo spessore, quanto velocemente si forma e il numero di anelli che si formano. Credito:Lingchong You, Duke University
Nei lavori precedenti, Siete batteri programmati in laboratorio per produrre proteine che, a seconda delle specificità della crescita della cultura, interagiscono tra loro per formare anelli. Controllando variabili come la dimensione dell'ambiente di crescita e la quantità di nutrienti forniti, i ricercatori hanno scoperto di poter controllare lo spessore dell'anello, quanto tempo ci è voluto per apparire e altre caratteristiche.
Modificando un numero qualsiasi di dozzine di potenziali variabili, i ricercatori hanno scoperto che potevano fare di più, come provocare la formazione di due o anche tre anelli. Ma poiché una singola simulazione al computer richiedeva cinque minuti, è diventato poco pratico cercare un risultato specifico in un ampio spazio di progettazione.
Per il loro studio, il sistema consisteva di 13 variabili batteriche come i tassi di crescita, diffusione, degradazione proteica e movimento cellulare. Solo per calcolare sei valori per parametro un singolo computer impiegherebbe più di 600 anni. L'esecuzione su un cluster di computer parallelo con centinaia di nodi potrebbe ridurre il tempo di esecuzione a diversi mesi, ma l'apprendimento automatico può ridurlo a ore.
"Il modello che usiamo è lento perché deve tenere conto dei passaggi intermedi nel tempo a una velocità sufficientemente piccola per essere preciso, " hai detto. "Ma non sempre ci interessano i passaggi intermedi. Vogliamo solo i risultati finali per determinate applicazioni. E possiamo (tornare a) capire i passaggi intermedi se troviamo interessanti i risultati finali".
Per saltare ai risultati finali, Wang si è rivolto a un modello di apprendimento automatico chiamato rete neurale profonda che può effettivamente effettuare previsioni di ordini di grandezza più velocemente rispetto al modello originale. La rete prende le variabili del modello come input, inizialmente assegna pesi e pregiudizi casuali, e sputa una previsione di quale modello formerà la colonia batterica, saltando completamente i passaggi intermedi che portano allo schema finale.
Sebbene il risultato iniziale non sia affatto vicino alla risposta corretta, i pesi e le distorsioni possono essere modificati ogni volta che i nuovi dati di addestramento vengono inseriti nella rete. Dato un set di "addestramento" abbastanza grande, la rete neurale imparerà a fare previsioni accurate quasi ogni volta.
Per gestire i pochi casi in cui l'apprendimento automatico si sbaglia, Tu e Wang avete trovato un modo per controllare rapidamente il loro lavoro. Per ogni rete neurale, il processo di apprendimento ha un elemento di casualità. In altre parole, non imparerà mai due volte allo stesso modo, anche se è addestrato sullo stesso insieme di risposte.
Ciascuno di questi grafici rappresenta una sezione trasversale di una colonia batterica. I picchi prevedono dove la colonia produrrà proteine viola che formano anelli a causa di un circuito genico artificiale. I grafici in alto sono stati creati da un algoritmo di machine learning, mentre quelli sul fondo sono stati creati da una simulazione più approfondita. Si abbinano molto bene, tranne l'ultimo. Credito:Duke University
I ricercatori hanno addestrato quattro reti neurali separate e hanno confrontato le loro risposte per ogni istanza. Hanno scoperto che quando le reti neurali addestrate fanno previsioni simili, queste previsioni erano vicine alla risposta giusta.
"Abbiamo scoperto che non dovevamo convalidare ogni risposta con il modello computazionale standard più lento, "Hai detto You. "In pratica abbiamo usato invece la 'saggezza della folla'."
Con il modello di apprendimento automatico addestrato e corroborato, i ricercatori hanno deciso di usarlo per fare nuove scoperte sul loro circuito biologico. Nei primi 100, 000 simulazioni di dati utilizzate per addestrare la rete neurale, solo uno ha prodotto una colonia batterica con tre anelli. Ma con la velocità della rete neurale, Tu e Wang non solo siete stati in grado di trovare molte altre terzine, ma determinare quali variabili sono state cruciali nella loro produzione.
"La rete neurale è stata in grado di trovare schemi e interazioni tra le variabili che sarebbero state altrimenti impossibili da scoprire, " ha detto Wang.
Come conclusione del loro studio, Tu e Wang avete provato il loro approccio su un sistema biologico che opera in modo casuale. La risoluzione di tali sistemi richiede che un modello al computer ripeta gli stessi parametri molte volte per trovare il risultato più probabile. Sebbene questa sia una ragione completamente diversa per lunghi tempi di esecuzione computazionale rispetto al loro modello iniziale, i ricercatori hanno scoperto che il loro approccio funzionava ancora, dimostrando che è generalizzabile a molti diversi sistemi biologici complessi.
I ricercatori stanno ora cercando di utilizzare il loro nuovo approccio su sistemi biologici più complessi. Oltre a eseguirlo su computer con GPU più veloci, stanno cercando di programmare l'algoritmo per essere il più efficiente possibile.
"Abbiamo addestrato la rete neurale con 100, 000 set di dati, ma potrebbe essere stato eccessivo, " ha detto Wang. "Stiamo sviluppando un algoritmo in cui la rete neurale può interagire con le simulazioni in tempo reale per accelerare le cose".
"Il nostro primo obiettivo era un sistema relativamente semplice, " ha detto You. "Ora vogliamo migliorare questi sistemi di rete neurale per fornire una finestra sulle dinamiche sottostanti di circuiti biologici più complessi".