I geoscienziati hanno sfruttato una tecnica comunemente usata per il riconoscimento vocale per rilevare eventi che vanno dalle frane alpine ai segnali di pericolo vulcanici che altrimenti passerebbero inosservati. Credito:USGS Hawaiian Volcano Observatory
Gli scienziati che cercano di capire il meccanismo interno della Terra hanno schierato eserciti di sensori in ascolto di segni di scivolamenti, rimbombi, esala e altri disturbi provenienti dalle faglie più profonde del pianeta ai suoi vulcani più alti. "Misuriamo continuamente il movimento del suolo, tipicamente raccogliendo 100 campioni al secondo da centinaia a migliaia di strumenti, ", ha detto il geofisico di Stanford Gregory Beroza. "È solo un enorme flusso di dati".
Eppure la capacità degli scienziati di estrarre un significato da queste informazioni non ha tenuto il passo.
La Terra solida, gli oceani e l'atmosfera insieme formano un geosistema in cui fisico, i processi biologici e chimici interagiscono su scale che vanno da millisecondi a miliardi di anni, e dalle dimensioni di un singolo atomo a quelle di un intero pianeta. "Tutte queste cose sono accoppiate a un certo livello, " ha spiegato Beroza, il Professore Wayne Loel nella Scuola della Terra, Scienze energetiche e ambientali (Stanford Earth). "Non capiamo i singoli sistemi, e non capiamo le loro relazioni reciproche".
Ora, come delineano Beroza e co-autori in un articolo pubblicato il 21 marzo sulla rivista Scienza , algoritmi di apprendimento automatico addestrati per esplorare la struttura di flussi di dati geologici in continua espansione, basarsi sulle osservazioni man mano che procedono e dare un senso a situazioni sempre più complesse, simulazioni tentacolari stanno aiutando gli scienziati a rispondere a domande persistenti su come funziona la Terra.
Dall'automazione alla scoperta
"Quando ho iniziato a collaborare con i geoscienziati cinque anni fa, c'era interesse e curiosità per l'apprendimento automatico e la scienza dei dati, " ha ricordato Karianne Bergen, autrice principale dell'articolo e ricercatrice presso l'Harvard Data Science Initiative che ha conseguito il dottorato in ingegneria computazionale e matematica a Stanford. "Ma la comunità di ricercatori che utilizzano l'apprendimento automatico per le applicazioni di geoscienza era relativamente piccola".
Questo sta cambiando rapidamente. Le applicazioni più semplici dell'apprendimento automatico nelle scienze della Terra automatizzano attività ripetitive come la categorizzazione delle particelle di cenere vulcanica e l'identificazione del picco in una serie di oscillazioni sismiche che indica l'inizio di un terremoto. Questo tipo di apprendimento automatico è simile alle applicazioni in altri campi che potrebbero addestrare un algoritmo per rilevare il cancro nelle immagini mediche sulla base di una serie di esempi etichettati da un medico. Algoritmi più avanzati che sbloccano nuove scoperte nelle scienze della Terra e oltre possono iniziare a riconoscere i modelli senza lavorare da esempi noti.
"Supponiamo di sviluppare un rilevatore di terremoti basato su terremoti noti. Troverà terremoti che assomigliano a terremoti noti, " ha spiegato Beroza. "Sarebbe molto più eccitante trovare terremoti che non somigliano a terremoti noti." Beroza e i colleghi di Stanford sono stati in grado di farlo utilizzando un algoritmo che segnala qualsiasi firma ripetuta negli insiemi di oscillazioni raccolti dai sismografi – gli strumenti che registrano le scosse dei terremoti – piuttosto che cercare solo i modelli creati dai terremoti che gli scienziati hanno precedentemente catalogato.
Il geofisico Gregory Beroza fa parte di un numero crescente di scienziati che stanno addestrando algoritmi di apprendimento automatico per dare un senso a simulazioni sempre più complesse dei geosistemi terrestri. Credito:Stacy Geiken
Entrambi i tipi di algoritmi, quelli con etichettatura esplicita nei dati di addestramento e quelli senza, possono essere strutturati come reti neurali profonde, che agiscono come un sistema a molti livelli in cui i risultati di una certa trasformazione dei dati in un livello servono come input per un nuovo calcolo nel livello successivo. Tra gli altri sforzi segnalati nel documento, questi tipi di reti hanno permesso ai geologi di calcolare rapidamente la velocità delle onde sismiche - un calcolo critico per stimare i tempi di arrivo dei terremoti - e di distinguere tra le scosse causate dal movimento naturale della Terra rispetto alle esplosioni.
Una mimica imperfetta
Oltre a individuare modelli trascurati, l'apprendimento automatico può anche aiutare a domare set di dati travolgenti. Modellando come un terremoto colpisce la parte viscosa dello strato all'interno della Terra che si estende per centinaia di miglia al di sotto della crosta più esterna del pianeta, Per esempio, richiede una quantità insormontabile di potenza di calcolo. Ma gli algoritmi di apprendimento automatico possono trovare scorciatoie, essenzialmente imitando soluzioni a equazioni più dettagliate con meno calcolo.
"Possiamo ottenere una buona approssimazione alla realtà, che saremo in grado di applicare a set di dati così grandi o simulazioni così estese che i computer più potenti disponibili non sarebbero in grado di elaborarli, " ha detto Berosa.
Cosa c'è di più, eventuali carenze nella precisione delle soluzioni basate sull'intelligenza artificiale a queste equazioni spesso impallidiscono di significato rispetto all'influenza delle decisioni degli scienziati su come impostare i calcoli in primo luogo. "La nostra più grande fonte di errore non deriva dalla nostra incapacità di risolvere le equazioni, "Ha detto Beroza. "Proviene dal sapere com'è veramente la struttura interna della Terra e i parametri che dovrebbero entrare in quelle equazioni".
Scienza aperta
Per essere sicuro, l'apprendimento automatico è tutt'altro che uno strumento perfetto per rispondere alle domande più spinose delle scienze della Terra. "Gli algoritmi di apprendimento automatico più potenti in genere richiedono grandi set di dati etichettati, che non sono disponibili per molte applicazioni di geoscienza, " ha detto Bergen. Se gli scienziati addestrano un algoritmo su dati insufficienti o etichettati in modo improprio, ha avvertito, può far sì che i modelli riproducano pregiudizi che non riflettono necessariamente la realtà.
Questo tipo di errore può essere in parte combattuto attraverso una maggiore trasparenza e la creazione di set di dati "di riferimento", che secondo i ricercatori può stimolare la concorrenza e consentire confronti tra mele e mele delle prestazioni dell'algoritmo. Secondo Bergen, "Adozione dei principi della scienza aperta, compresa la condivisione di dati e codice, contribuirà ad accelerare la ricerca e consentirà anche alla comunità di identificare e affrontare i limiti o le debolezze degli approcci proposti".
L'impazienza umana può essere più difficile da tenere sotto controllo. "Quello che mi preoccupa è che le persone useranno l'IA ingenuamente, " disse Beroza. "Potresti immaginare qualcuno che addestra un multistrato, rete neurale profonda per fare la previsione dei terremoti e quindi non testare il metodo in un modo che convalidi adeguatamente il suo valore predittivo".