Credito:CC0 Dominio Pubblico
La tenacia viene naturale a un ragazzo che viene dalla "capitale del mulo del mondo". Quel tratto ha resistito alla Columbia, Tennessee, nativo Elliot Perryman in buona posizione come stagista presso il Lawrence Berkeley National Laboratory (Berkeley Lab). L'autunno scorso, ha iniziato a lavorare con lo scienziato dello staff Peter Zwart nel Center for Advanced Mathematics for Energy Research Applications (CAMERA) attraverso il programma di ricerca universitaria del Berkeley Lab.
CAMERA mira a identificare le aree della scienza sperimentale che possono essere aiutate da nuove intuizioni matematiche applicate. Questi ricercatori interdisciplinari sviluppano gli strumenti algoritmici necessari e li forniscono come software di facile utilizzo. Zwart ha messo Perryman, una specializzazione in informatica e fisica presso l'Università del Tennessee, su un progetto che ha paragonato a "andare in giro in una stanza buia cercando di trovare un gatto".
L'elusivo felino in questo caso era un problema matematico che assillava da tempo la comunità della cristallografia sperimentale:come modellare la presenza di rumore nei dati in modo più realistico.
La cristallografia è uno strumento indispensabile per determinare le strutture atomiche delle molecole, che a loro volta forniscono ai ricercatori informazioni sul loro comportamento e funzione. Quando un raggio di luce focalizzato è mirato a un purificato, campione cristallino, la luce viene diffratta dagli atomi e un rivelatore registra la luce diffratta. Quando il campione viene ruotato, le immagini bidimensionali dei modelli di diffrazione vengono catturate in vari orientamenti. Vengono quindi applicati algoritmi ai dati di diffrazione per ricostruire una mappa tridimensionale della disposizione degli atomi nel campione.
Quando determini, o risolvere, una struttura dai dati di diffrazione, devi mettere in relazione il modello con le tue osservazioni, ha spiegato Zwart, che fa parte della Molecular Biophysics and Integrating Bioimaging Division del Berkeley Lab. Le funzioni target utilizzate per fare ciò sono chiamate funzioni di massima verosimiglianza. Funzionano davvero bene se i tuoi dati sono buoni, lui nota, ma quando la quantità di rumore nei dati aumenta, cosa che accade a risoluzioni più elevate, i metodi attuali non sono in grado di fornire la migliore risposta possibile.
Il motivo per cui le funzioni di destinazione non sono all'altezza in questi casi è che c'è un passaggio nel calcolo, un'integrazione, che non può essere fatto analiticamente, vale a dire, con la matematica di carta e matita che ti dà un'espressione che puoi trasformare in codice. I precedenti tentativi di affrontare questo problema hanno semplicemente ignorato il passaggio di integrazione, o fornire approssimazioni che funzionano solo in scenari specifici di esperimenti o tecniche. Quindi Zwart e Perryman sono tornati alle origini, provare una moltitudine di diversi approcci di apprendimento automatico per ricavare numericamente un'approssimazione il più esatta possibile nel modo più efficiente.
A tre quarti del tirocinio di 16 settimane di Perryman, i due arrivarono alla conclusione che la maggior parte delle strade che all'inizio erano sembrate promettenti erano in realtà vicoli ciechi. "Proverei delle cose e ci è voluto un po' solo per capire se qualcosa è un successo o un fallimento perché, con un problema totalmente nuovo, proprio non lo sai, " ha detto Perryman. Le cose finalmente hanno funzionato quando si sono resi conto che un presupposto comune che le persone hanno fatto per 30 anni potrebbe essere migliorato.
Univ. del Tennessee undergrad Elliot Perryman (a destra) ha lavorato con lo scienziato dello staff di Biosciences Peter Zwart durante il suo tirocinio autunno 2019 Berkeley Lab Undergraduate Research (BLUR). Credito:Thor Swift/Berkeley Lab
L'ipotesi ha a che fare con la forma del rumore nei dati. L'opinione ampiamente accettata è che gli errori sperimentali rientrino in una distribuzione normale classica, come la curva a campana gaussiana, dove quasi il 100% delle osservazioni rientra in 3,5 deviazioni standard. Ma una curva più realistica ha "code" più spesse a causa di eventi rari ma prevedibili. "L'inclusione di questi modelli di errore leggermente più realistici nelle funzioni obiettivo cristallografiche ci consente di modellare la presenza di quelli che normalmente potrebbero essere chiamati valori anomali in un modo più realistico, " Ha detto Zwart.
Il loro metodo, che hanno pubblicato sulla rivista Acta Crystallographica Sezione D:Biologia Strutturale , è ampiamente applicabile nel campo della cristallografia sperimentale e consentirà ai ricercatori di fare un uso migliore dei dati di diffrazione marginali o di bassa qualità. Questa ricerca è stata supportata dal National Institutes of Health e CAMERA è finanziata dall'Office of Science del Dipartimento dell'Energia degli Stati Uniti.
Un ricercatore post-dottorato nel laboratorio di Zwart sta ora lavorando per trasformare la struttura del concetto matematico in un'applicazione che può essere eventualmente implementata nella suite software Phenix. Il direttore di MBIB Paul Adams guida lo sviluppo di Phenix, una raccolta di strumenti per la soluzione di strutture automatizzate ampiamente utilizzata dalla comunità della cristallografia.
"Elliot ha speso molto tempo ed energie in approcci che alla fine non hanno funzionato, ma sono stati determinanti per lo sforzo totale perché è stato in grado di imparare molto da solo ed educarmi allo stesso tempo, " ha aggiunto Zwart. E l'esperienza acquisita da Perryman lo ha aiutato a ottenere uno stage di follow-up lavorando con Tess Smidt, un postdoc nella divisione di ricerca computazionale, e infine una posizione di assistente studente che lavora con il postdoc CAMERA Marcus Noack sul processo decisionale assistito dalle macchine per le scienze sperimentali.
Il progetto a cui Perryman e Noack stanno lavorando mira a capovolgere i metodi tradizionali di campionamento automatico delle immagini. Propongono di utilizzare un approccio casuale che è ordini di grandezza più efficiente e fornirà una previsione di come l'immagine potrebbe apparire in una determinata posizione, nonché un'indicazione dell'incertezza di tale previsione. Perryman ha lavorato su un approccio di ottimizzazione distribuita, denominato HGDL (Hybrid Global Deflated Local), per migliorare una funzione di ottimizzazione critica.
Ci sono molti problemi computazionali impegnativi nelle bioscienze che possono essere affrontati con approcci che sono già stati sviluppati da matematici applicati, Ha notato Zwart. "Alcune idee impiegano solo più tempo per filtrare in altre aree, " ha detto. "Ecco perché lavorare all'interno di CAMERA è così bello:i matematici hanno una visione diversa del mondo, un diverso insieme di competenze, e leggere diversi giornali. Ma non conoscono i campi sperimentali come i biologi strutturali. È importante riunire queste persone in modo da poter identificare i problemi all'interno delle bioscienze e trovare soluzioni in matematica e informatica".
"Questo è stato uno dei grandi vantaggi di questo tirocinio, " ha detto Perryman. "Ho iniziato con la fisica nucleare, quindi conoscevo solo i tipi di problemi in quel campo. Ma dopo aver lavorato con Peter, o lavorando con Tess la scorsa primavera, o Marco, Mi rendo conto che ci sono tanti problemi analoghi. Piace, se hai lo stesso problema, Marcus lo inquadrerebbe in termini di una sorta di cosa geofisica, e Tess direbbe che è un problema di geometria, ma probabilmente è anche un problema di biologia".
Alla fine, Perryman non si è lasciato scoraggiare da nessuna di queste ostinate sfide:"Ci sono così tanti progetti interessanti, è difficile non entusiasmarsi per loro".