Un'illustrazione artistica di una miscela di processi gaussiani e un fascio di luce o di particelle che lo attraversa. L'immagine allude al funzionamento interno dell'algoritmo all'interno di gpCAM, uno strumento software sviluppato dai ricercatori della struttura CAMERA del Berkeley Lab per facilitare la scoperta scientifica autonoma. Credito:Marcus Noack, Berkeley Lab
Le strutture sperimentali di tutto il mondo stanno affrontando una sfida:i loro strumenti stanno diventando sempre più potenti, portando ad un costante aumento del volume e della complessità dei dati scientifici che raccolgono. Allo stesso tempo, questi strumenti richiedono nuovi, algoritmi avanzati per sfruttare queste capacità e consentire di porre e rispondere a domande scientifiche sempre più complesse. Per esempio, il progetto ALS-U per aggiornare la struttura Advanced Light Source presso il Lawrence Berkeley National Laboratory (Berkeley Lab) risulterà in una luce a raggi X molli 100 volte più luminosa e presenterà rivelatori superveloci che porteranno a un grande aumento dei tassi di raccolta dati.
Per sfruttare appieno gli strumenti e le strutture moderne, i ricercatori hanno bisogno di nuovi modi per ridurre la quantità di dati necessari per la scoperta scientifica e affrontare i tassi di acquisizione dei dati con cui gli esseri umani non possono più tenere il passo. Un percorso promettente si trova in un campo emergente noto come scoperta autonoma, dove gli algoritmi imparano da una quantità relativamente piccola di dati di input e decidono autonomamente i prossimi passi da compiere, consentendo di esplorare più rapidamente gli spazi dei parametri multidimensionali, efficiente, e con il minimo intervento umano.
"Sempre più campi sperimentali stanno sfruttando questa nuova acquisizione dati ottimale e autonoma perché, quando si tratta di esso, si tratta sempre di approssimare qualche funzione, dati dati rumorosi, " disse Marcus Noack, ricercatore presso il Center for Advanced Mathematics for Energy Research Applications (CAMERA) presso il Berkeley Lab e autore principale di un nuovo documento sui processi gaussiani per l'acquisizione autonoma dei dati pubblicato il 28 luglio in Natura Recensioni Fisica . Il documento è il culmine di un pluriennale, sforzo multinazionale guidato da CAMERA per introdurre tecniche di scoperta autonome innovative in un'ampia comunità scientifica.
I processi stocastici prendono il comando
Negli ultimi anni, i metodi di scoperta autonomi sono diventati più sofisticati, con processi stocastici (ad esempio, Regressione di processo gaussiano [GPR]) emergendo come il metodo di scelta per guidare molte classi di esperimenti. Il successo del GPR negli esperimenti di pilotaggio è dovuto alla sua natura probabilistica, che ci permette di prendere decisioni basate sull'incertezza del modello attuale. Questo è il cuore di gpCAM, uno strumento software sviluppato da CAMERA.
"In contrasto con l'apprendimento profondo, i processi stocastici possono essere utilizzati per prendere decisioni basate su set di dati relativamente piccoli, e forniscono stime di incertezza che possono ottimizzare il processo di apprendimento, " ha detto Noak.
Mentre gli sforzi di ricerca iniziali di CAMERA si sono concentrati principalmente sugli esperimenti sulla linea di luce del sincrotrone, un numero crescente di scienziati in altre discipline sta ora vedendo i vantaggi dell'incorporazione di tecniche di scoperta autonome nei flussi di lavoro dei loro progetti sperimentali. In Aprile, un workshop sulla scoperta autonoma nella scienza e nell'ingegneria sponsorizzato da CAMERA e presieduto da Noack ha attirato centinaia di scienziati da tutto il mondo, riflettendo l'interesse crescente in questo campo emergente.
"Siamo ancora agli inizi con questo, ma molti progressi sono stati fatti nell'ultimo anno, " ha detto Martin Böhm, uno scienziato degli strumenti nel gruppo di spettroscopia dell'Institut Laue-Langevin a Grenoble, Francia, e un coautore dell'articolo Nature Reviews Physics. "Per la spettrometria, Per esempio, offre un nuovo modo di fare esperimenti e lascia che gli strumenti facciano il lavoro, che si traduce in un risparmio di tempo per gli utenti." Altre potenziali aree di applicazione includono fisica, matematica, chimica, biologia, scienza dei materiali, studi ambientali, scoperta di nuovi farmaci, informatica, e ingegneria elettrica.
Usi multipli emergenti
Per esempio, Giovanni Tommaso, un ricercatore post-dottorato presso la Molecular Foundry di Berkeley Lab, sta utilizzando la microscopia con sonda a scansione fotoaccoppiata per comprendere le proprietà dei materiali dei sistemi semiconduttori a film sottile e ha lavorato con gpCAM per migliorare questi sforzi.
"Applicazioni su nanoscala che fanno uso di intelligenza artificiale e algoritmi di apprendimento automatico, specifico per la scansione di sistemi di sonde, interessa da tempo il gruppo Weber-Bargioni [alla Fonderia], "Ha detto Thomas. "Ci siamo interessati all'utilizzo dei processi gaussiani verso la scoperta autonoma nell'estate del 2020".
Il gruppo ha recentemente completato un'applicazione che fa uso di gpCAM all'interno di un'interfaccia Python-to-LabVIEW, dove, con alcuni input dell'utente per l'inizializzazione, gpCAM guida una sonda atomicamente tagliente attraverso un materiale bidimensionale semiconduttivo per la raccolta di dati iperspettrali. Le immagini ottenute rappresentano una convoluzione di informazioni sia elettroniche che topografiche, e la spettroscopia puntuale estrae la struttura elettronica locale.
"Guida autonoma di strumenti a sonda di scansione, senza la necessità di un costante intervento umano, può ottimizzare le prestazioni degli strumenti per ingegneri e scienziati continuando gli esperimenti durante le ore non lavorative o fornendo percorsi per attività simultanee all'interno di un determinato flusso di lavoro; questo è, lo strumento può essere impostato per un funzionamento autonomo mentre l'utente può utilizzare in modo efficiente il tempo concesso, " Thomas ha detto. "Di conseguenza, ora possiamo utilizzare processi gaussiani per mappare e identificare regioni difettose in eterostrutture 2D con risoluzione sub-Ångström".
Aaron Michelson, un ricercatore laureato nel gruppo Oleg Gang della Columbia University che lavora sull'autoassemblaggio basato su origami del DNA, sta appena iniziando ad applicare gpCAM alla sua ricerca. Per un progetto, sta aiutando lui e i suoi colleghi a studiare la storia della ricottura termica dei superreticoli di origami di DNA su scala nanometrica; in un altro, viene utilizzato per estrarre grandi set di dati da esperimenti di microscopia a raggi X 2D.
"La nanotecnologia del DNA nella ricerca di materiale funzionale autoassemblante spesso soffre di una capacità limitata di campionare l'ampio spazio dei parametri per la sintesi, " ha detto. "O questo richiede un grande volume di dati da raccogliere o una soluzione più efficiente alla sperimentazione. La scoperta autonoma può essere incorporata direttamente sia nell'estrazione di grandi set di dati che nella guida di nuovi esperimenti. Ciò consente al ricercatore di evitare di fare più campioni senza pensare e ci mette al posto di guida per prendere decisioni".
"Il lavoro e la leadership di Noack hanno riunito un ampio, comunità interdisciplinare di co-design. Questa sorta di costruzione della comunità scientifica è al centro di ciò che CAMERA cerca di fare, " ha affermato il direttore della CAMERA James Sethian, un coautore sul Natura Recensioni Fisica carta.