Credito:Southwest Research Institute
I big data sono diventati una grande sfida per gli scienziati spaziali che analizzano vasti set di dati da una strumentazione spaziale sempre più potente. Per affrontare questo problema, un team del Southwest Research Institute ha sviluppato uno strumento di apprendimento automatico per etichettare in modo efficiente set di dati grandi e complessi per consentire ai modelli di deep learning di vagliare e identificare eventi solari potenzialmente pericolosi. Il nuovo strumento di etichettatura può essere applicato o adattato per affrontare altre sfide che coinvolgono vasti set di dati.
Poiché i pacchetti di strumenti spaziali raccolgono dati sempre più complessi in volumi sempre maggiori, sta diventando più difficile per gli scienziati elaborare e analizzare le tendenze rilevanti. L'apprendimento automatico (ML) sta diventando uno strumento fondamentale per l'elaborazione di set di dati complessi di grandi dimensioni, in cui gli algoritmi imparano dai dati esistenti per prendere decisioni o previsioni che possono fattorizzare più informazioni contemporaneamente di quanto possano fare gli esseri umani. Tuttavia, per sfruttare le tecniche di ML, gli esseri umani devono prima etichettare tutti i dati, spesso un'impresa monumentale.
"L'etichettatura dei dati con annotazioni significative è un passaggio cruciale del ML supervisionato. Tuttavia, l'etichettatura dei set di dati è noiosa e richiede tempo", ha affermato il dottor Subhamoy Chatterjee, ricercatore post-dottorato presso SwRI specializzato in astronomia solare e strumentazione e autore principale di un articolo su questi risultati pubblicati sulla rivista Nature Astronomy . "Una nuova ricerca mostra come le reti neurali convoluzionali (CNN), addestrate su video astronomici rozzamente etichettati, possono essere sfruttate per migliorare la qualità e l'ampiezza dell'etichettatura dei dati e ridurre la necessità dell'intervento umano."
Le tecniche di deep learning possono automatizzare l'elaborazione e interpretare grandi quantità di dati complessi estraendo e imparando modelli complessi. Il team SwRI ha utilizzato i video del campo magnetico solare per identificare le aree in cui sulla superficie solare emergono campi magnetici complessi e forti, che sono i principali precursori degli eventi meteorologici spaziali.
"Abbiamo addestrato le CNN utilizzando etichette grezze, verificando manualmente solo i nostri disaccordi con la macchina", ha affermato il coautore Dr. Andrés Muñoz-Jaramillo, un fisico solare SwRI con esperienza nell'apprendimento automatico. "Abbiamo quindi riqualificato l'algoritmo con i dati corretti e ripetuto questo processo fino a quando non eravamo tutti d'accordo. Sebbene l'etichettatura dell'emergenza del flusso venga in genere eseguita manualmente, questa interazione iterativa tra l'algoritmo umano e quello ML riduce la verifica manuale del 50%."
Approcci di etichettatura iterativa come l'apprendimento attivo possono far risparmiare molto tempo, riducendo i costi per preparare il big data ML. Inoltre, mascherando gradualmente i video e cercando il momento in cui l'algoritmo ML cambia la sua classificazione, gli scienziati SwRI hanno ulteriormente sfruttato l'algoritmo ML addestrato per fornire un database ancora più ricco e utile.
"Abbiamo creato un approccio di apprendimento approfondito end-to-end per classificare i video dell'evoluzione dei cerotti magnetici senza fornire esplicitamente immagini segmentate, algoritmi di tracciamento o altre funzionalità artigianali", ha affermato il dottor Derek Lamb di SwRI, un coautore specializzato nell'evoluzione di campi magnetici sulla superficie del Sole. "Questo database sarà fondamentale nello sviluppo di nuove metodologie per prevedere l'emergere delle complesse regioni favorevoli agli eventi meteorologici spaziali, aumentando potenzialmente il tempo di anticipo che abbiamo per prepararci al meteo spaziale". + Esplora ulteriormente