Il software di apprendimento automatico prevede il comportamento dei batteri

Rappresentazione artistica di una cellula batterica. Credito:Centri per il controllo e la prevenzione delle malattie/James Archer

In un primo per algoritmi di apprendimento automatico, un nuovo software sviluppato al Caltech può prevedere il comportamento dei batteri leggendo il contenuto di un gene. La svolta potrebbe avere implicazioni significative per la nostra comprensione della biochimica batterica e per lo sviluppo di nuovi farmaci.

Una spinta della moderna farmacologia si concentra sull'alleviare i disturbi sviluppando farmaci che prendono di mira proteine specifiche che risiedono nelle membrane delle cellule del nostro corpo. Queste proteine, note come proteine integrali di membrana (IMP), agiscono come recettori o "porte" che consentono ai materiali di entrare e uscire dalle cellule. Esempi di IMP sono i recettori accoppiati a proteine G, che trasmettono informazioni a una cellula sul suo ambiente, e canali ionici, che controllano l'ambiente interno di una cellula agendo come gatekeeper che consentono selettivamente agli ioni di entrare e uscire dalla cellula. Gli IMP sono l'obiettivo di quasi il 50 per cento di tutti i farmaci sul mercato. Sfortunatamente, molti IMP sono poco conosciuti.

"Queste sono molecole molto importanti che il nostro corpo produce di cui non sappiamo abbastanza, "dice Bil Clemons, professore di biochimica al Caltech.

Al fine di ottenere una comprensione più completa di un IMP, i ricercatori devono generarne grandi quantità per la purificazione e lo studio dettagliato. Tipicamente, questo viene fatto inserendo il DNA di quella proteina nei batteri; la proteina viene quindi prodotta naturalmente man mano che i batteri crescono e si moltiplicano. Il problema è che non tutti i batteri sono disposti a collaborare e a produrre solo misere quantità di proteine. Solo pochi batteri finiscono per produrre abbastanza proteine per essere utili, e, fino ad ora, non c'è stato modo per i ricercatori di sapere se un batterio con cui stanno lavorando sarà un successo o un fallimento.

"Uno dei maggiori limiti nello studio delle proteine di membrana è la mancanza di capacità di esprimerle in quantità ragionevoli, " Dice Clemons. "Usiamo questi batteri come fabbriche per fare cose per noi, ma è incostante... per lo più manca. Aneddoticamente, ha avuto circa il 10 percento di successo".

Tutti i tentativi e gli errori necessari per far cooperare i batteri sprecano tempo e risorse dei ricercatori. Clemons si è chiesto se sarebbe possibile utilizzare i computer per prevedere come reagiranno i batteri quando gli verrà chiesto di creare una proteina che normalmente non producono.

"Pensavamo che le cellule batteriche stessero eseguendo una lettura quantitativa del DNA per determinare la quantità di queste proteine da produrre, ", dice. "Volevamo sapere se potevamo utilizzare strumenti computazionali per aumentare il tasso di successo nel trovare batteri che esprimono proteine in quantità utili per aiutarci a caratterizzare molecole importanti per la medicina".

Clemons e il suo studente laureato, Shyam Saladi, ha creato quello strumento, un software di apprendimento automatico che hanno soprannominato IMProve, che confronta il DNA batterico con i dati sulla quantità di proteine prodotta dai batteri. Hanno quindi utilizzato un set di dati per IMProve che ha coltivato molti campioni di batteri per vedere quanto bene producessero le proteine di membrana desiderate. I ricercatori hanno addestrato IMProve alimentando quei risultati e i codici genetici su cui i batteri fanno affidamento per esprimere le proteine in IMProve in modo che potesse apprendere quali sequenze di DNA avrebbero portato a un'elevata produzione di proteine.

Una volta che il software è stato addestrato, i ricercatori hanno scoperto che prevedeva così bene il comportamento dei batteri che erano in grado di raddoppiare il tasso di raccolta di batteri che avrebbero espresso gli IMP in grandi quantità.

"Ci ha sorpreso perché non c'era alcuna garanzia che questo approccio avrebbe funzionato, " Clemons dice. "Le cellule sono estremamente complesse, e stai chiedendo a un modello statistico relativamente semplice di prevedere cosa farà una cellula. Da quella prospettiva, è stato piuttosto scioccante".

Ma, Clemons aggiunge che, forse i loro risultati non sono così sorprendenti col senno di poi.

"Questo sottolinea l'idea che le cellule sono solo computer, e stanno solo calcolando cose, " lui dice.

La carta, intitolato "Un modello statistico per una migliore espressione delle proteine di membrana utilizzando caratteristiche derivate dalla sequenza, " appare nel numero del 30 marzo del Journal of Biological Chemistry .

La relaxometria a ciclo di campo può valutare lo stato del tumore misurando la velocità di scambio di acqua cellulare

Il microscopio fatto in casa rivela come un virus che causa il cancro si aggrappa al nostro DNA

Chimica