Credito:CC0 Dominio Pubblico
Immagina che il tuo feed di Facebook ponga un puzzle allettante. Ti vengono presentati alcuni frammenti su una persona:colore degli occhi, colore dei capelli, età, e altezza e hai solo un minuto per scegliere il nome e l'identità della persona da centinaia di profili. Se lo fai, vinci $ 100 milioni.
Ma conosci solo 10 di queste persone per nome. Per gli altri, hai solo una scarsità di dati su cui lavorare. Alcuni sono giovani e alcuni non sono così giovani. Alcuni sono biondi e alcuni sono bruni. Alcuni dei loro nomi suonano familiari, ma non riesci a individuare con esattezza come li conosci.
Questo tipo di scenario, un compito apparentemente impossibile con un enorme profitto, confronta i ricercatori del PNNL che studiano la metabolomica. Questo è lo studio delle piccole molecole che stanno alla base e informano ogni aspetto della nostra vita, compresa la produzione di energia, il destino del pianeta, e la nostra salute.
Gli scienziati stimano che sia noto meno dell'1% delle piccole molecole. Una tipica libreria di metabolomica disponibile in commercio ha forse 5, 000 composti, ma gli scienziati sanno che ce ne sono altri miliardi.
Come fanno a "identificare" qualcosa di cui sanno così poco? È come chiedere a Galileo di identificare nello spazio profondo stelle impossibili da rilevare quando usò uno dei primi telescopi più di 400 anni fa.
Entra DarkChem, un progetto di ricerca finanziato dal Deep Learning for Scientific Discovery Agile Investment del PNNL. Un team guidato da Ryan Renslow sta portando l'intelligenza artificiale sul tavolo per affrontare il vasto, paesaggio sconosciuto di metaboliti che tormentano ricercatori come Tom Metz, che guida lo sforzo metabolomico del PNNL.
"Proprio adesso, stiamo solo scremando ciò che è potenzialmente conoscibile e salutando dati molto interessanti perché non possiamo identificare la stragrande maggioranza dei metaboliti che la nostra tecnologia rileva, " ha detto Metz. "L'apprendimento profondo sta fornendo un nuovo modo per risolvere il puzzle."
Renslow e i colleghi Sean Colby e Jamie Nunez hanno adottato principi di deep learning comunemente usati in applicazioni come la traduzione linguistica e li hanno applicati a questa materia oscura del mondo molecolare.
I primi risultati sono degni di nota:la rete DarkChem del team può calcolare una caratteristica chiave di una molecola in millisecondi e con il 13% di errori in meno, rispetto alle 40 ore su un supercomputer che esegue il software di chimica quantistica di punta della PNNL, NWCem.
"Siamo rimasti scioccati da quanto bene DarkChem ha fatto, ", ha detto Renslow.
La rete non sta semplicemente analizzando i dati per compilare i risultati. Piuttosto, la rete si basa sull'intelligenza artificiale. DarkChem è stato sviluppato in modo che possa scoprire cose nuove che sono ancora sconosciute all'uomo.
Di calcio e collisione sezione trasversale
In questo caso, il team ha addestrato il programma a comprendere e prevedere una proprietà chimica nota come sezione trasversale di collisione (CCS). Mentre CCS si maschera come un intimidatorio acronimo scientifico, chiunque abbia visto una partita di calcio ha visto qualcosa come CCS in azione.
Immagina un portatore di palla che sfonda i giocatori avversari. Un giocatore più piccolo potrebbe avere meno collisioni, ma quando si scontrano con un avversario, l'effetto è diverso rispetto a quando un Marshawn Lynch simile a un hulk entra in modalità bestia e si scrolla di dosso diversi impatti.
Impari molto sui giocatori di football guardandoli scontrarsi l'uno con l'altro.
Nello stesso modo, il monitoraggio delle collisioni tra ioni metaboliti che viaggiano attraverso uno strumento di laboratorio pieno di molecole di gas dice agli scienziati molto sulle strutture degli ioni metaboliti:le loro dimensioni, la loro massa, e altre caratteristiche. CCS è la misura matematica di tale azione, ed è fondamentale per sbloccare la struttura chimica in fase gassosa - la vera "identificazione" - di una molecola.
Renslow e il suo team hanno addestrato DarkChem a calcolare la CCS per le strutture chimiche, poi si è liberato per fare il calcolo per più di 50 milioni di composti, una parte della libreria di PubChem. Il programma ha risolto questo compito in un attimo.
Anche se questo è un promettente passo avanti, il team è più entusiasta delle implicazioni per tutte quelle piccole molecole non ancora identificate.
La rete può funzionare sia in avanti che all'indietro, ovvero può risolvere il CCS di una molecola e prevedere altre proprietà, ma può anche generare nuove strutture chimiche in base alle proprietà che si stanno cercando. Per esempio, Il team di Renslow ha utilizzato DarkChem per produrre diverse nuove strutture chimiche che hanno il potenziale per influenzare il recettore NMDA, che è coinvolto nella memoria e in altre importanti funzioni cerebrali.
La rete non sta semplicemente memorizzando i dati. Infatti, il team aggiunge intenzionalmente un po' di confusione numerica alle sfide che la rete deve affrontare per impedirgli di memorizzare.
"È come insegnare a un computer a riconoscere un cane, " disse Renslow. "Potrebbe semplicemente memorizzare l'immagine, ma vuoi che la rete sia in grado di riconoscere una varietà di cani, così potresti capovolgere l'immagine, allungalo un po', cambia i suoi colori. Perturbi l'immagine in modo che il programma sia costretto a generalizzare e a fare affidamento sulle conoscenze e sulle regole che ha appreso".
Insegnare alla rete per imparare
Per creare la rete, il team ha utilizzato una forma di intelligenza artificiale chiamata transfer learning, dove la rete apprende da un set di dati e quindi applica la sua conoscenza a un altro set di dati. La formazione si è articolata principalmente in tre fasi:
Il programma ha esaminato più di 50 milioni di molecole conosciute in PubChem, apprendere le basi della chimica e come rappresentare matematicamente le strutture chimiche. Ma il database mancava di informazioni su CCS, una misura cruciale per la comprensione dei metaboliti.
Quindi, il team ha esposto DarkChem a un set di dati computazionali CCS sviluppato dal PNNL, circa 700, 000 molecole. Ciò ha aiutato a formare il programma su come collegare le informazioni generali apprese sulla struttura chimica alla CCS.
Finalmente, il team ha messo a punto la rete utilizzando un piccolo, set di dati robusto di circa 1, 000 strutture chimiche le cui misurazioni CCS sono state determinate attraverso un accurato lavoro di laboratorio.
La capacità di calcolare la CCS per molecole sconosciute, molecole il cui unico indizio di esistenza potrebbe essere una linea sottile di un esperimento di spettrometria di massa, aggiunge una caratteristica importante per aiutare gli scienziati a differenziare un metabolita da un altro. Per far luce sulla materia molecolare oscura.
"Ogni dimensione che aggiungi ti dà un potere risolutivo migliore, " ha detto Colby, che sta aiutando a individuare altre possibili caratteristiche molecolari per DarkChem da analizzare, come gli spettri infrarossi, modelli di frammentazione, e dati di superficie accessibili ai solventi.
È analogo ad affinare la nostra capacità di identificare migliaia di conoscenti su Facebook.
"Puoi dire che qualcuno è maschio e porta gli occhiali, " disse Renslow. "Ma se si può aggiungere che ha 54 anni e guida una Mercedes rossa, si limitano i candidati.
"Non è molto diverso con i metaboliti. Continuiamo ad aggiungere caratteristiche che possiamo misurare, e alla fine c'è solo una molecola nell'universo che si adatta a quella combinazione di dati, " Ha aggiunto.