I ricercatori dell'ISI e dell'USC Dornsife creano una nuova piattaforma per standardizzare i dati di paleoclimatologia. Credito:Cassidy Joyes CC-BY-SA-4.0
A volte le cose meno correlate possono produrre i risultati più innovativi. Prendere, ad esempio, l'aikido - un'arte marziale giapponese che può essere tradotta come la "via dell'energia unificante" - e la paleoclimatologia, un campo scientifico che esamina l'evoluzione del clima.
Julien Emile Geay, professore associato presso il Dipartimento di Scienze della Terra presso l'USC Dornsife College of Letters, Arti e Scienze, ne ho avuto un assaggio diretto nel 2011 durante un soggiorno con un amico per un campo di aikido a San Francisco. Il suo amico stava sviluppando database semantici per dati biomedici ed Emile-Geay ha scoperto che questo approccio potrebbe funzionare anche per i dati estremamente idiosincratici raccolti dai paleoclimatologi.
Dopo un incontro fortuito nel 2012 con Yolanda Gil, direttore delle tecnologie della conoscenza presso l'Information Sciences Institute (ISI) della USC e professore di ricerca presso il Dipartimento di informatica della USC Viterbi, i ricercatori hanno creato una proposta per integrare l'esperienza di intelligenza artificiale di Gil con il background di scienze della Terra di Emile-Geay, sviluppando una nuova piattaforma che dia ai paleoclimatologi un modo per unificare i diversi set di dati di dati paleoclimatici, stile aikido.
Insieme a Emile Geay, il gruppo di paleoclimatologia comprende Deborah Khider, un postdoc presso il Dipartimento di Scienze della Terra dell'USC e scienziato di dati ISI, e Nicholas McKay, professore associato presso la School of Earth Sciences and Environmental Sustainability della North Arizona University. Dal lato dell'IA, Gil ha collaborato con Daniel Garijo e Varun Ratnakar, informatico e programmatore di ricerca presso ISI, rispettivamente. I team hanno lavorato per creare un nuovo approccio per standardizzare i dati di paleoclimatologia in modo che gli scienziati della Terra possano prevedere meglio il clima futuro per comprendere le cause e gli effetti del cambiamento climatico.
La loro ricerca è stata pubblicata in un articolo dell'American Geophysicist's Union (AGU) Paleoceanografia e Paleoclimatologia rivista ed è stato evidenziato alla conferenza del centenario dell'AGU, tenutasi dal 9 al 13 dicembre a San Francisco.
I combattenti solitari
La paleoclimatologia è lo studio della storia del clima, con i ricercatori che utilizzano impronte e indicatori per ricostruire i climi del passato. Questi indicatori sono solitamente campioni fisici raccolti da fonti naturali, come le carote di ghiaccio dei ghiacciai, anelli degli alberi, conchiglie, depositi di grotte, e sedimenti lacustri e oceanici. Dopo aver integrato i diversi set di dati risultanti, i ricercatori possono ricostruire le variabili climatiche, come temperature e livelli di precipitazioni. Ricreando i climi del passato, Gli scienziati della Terra sono in grado di prevedere i climi futuri.
Esempio di sondaggi su (a) la piattaforma LinkedEarth e (b) Twitter (@Linked_Earth). Credito: Paleoceanografia e Paleoclimatologia
Però, ironicamente, un grosso problema con la disciplina risiede in uno dei suoi punti di forza:la diversità dei set di dati. Mentre i vari set di dati aiutano la creazione di complicate simulazioni di modelli per aiutare i ricercatori a comprendere la progressione del clima, le idiosincrasie di ciascun set di dati possono essere difficili da integrare.
Gli scienziati della Terra hanno i loro approcci, processi, e metodi di raccolta e codifica dei dati che potrebbero non essere sempre complementari o intuitivi, e trasformare i dati in un formato utilizzabile per la ricerca e l'analisi, o "conflitto di dati, " può essere un compito ingombrante. Alcuni ricercatori possono dedicare fino all'80% del loro tempo a litigare dati, come l'identificazione di valori anomali e mancanti o la ricerca di record sparsi in più database. La necessità di standardizzazione nel campo era chiara. "La vita senza standard è miserabile!" disse Emile Geay. "Immagina di aver bisogno di un tipo di presa diverso per ogni singolo elemento della tua casa:questo è attualmente lo stato dei dati paleoclimatici, costringendo le persone all'inizio della carriera che vogliono integrare i propri dati a trascorrere mesi della loro vita reinventando la ruota ogni volta che fanno qualcosa." Soprattutto perché i fondi stanno diventando sempre più scarsi, Emile-Geay ha osservato, questa disputa di dati è essenzialmente una perdita di tempo. "Eravamo stufi e stanchi di questo e volevamo salvare le generazioni future dallo sprecare il loro cervello di dottorato in quel modo".
Un approccio socio-tecnico
Per affrontare queste preoccupazioni, i team di paleoclimatologia e di intelligenza artificiale hanno sviluppato una nuova piattaforma. Questa nuova piattaforma fa parte del progetto LinkedEarth di NSF (finanziato da EarthCube), e si basa su un approccio di "crowdsourcing controllato", dove la folla (cioè, gli esperti di paleoclimatologia che utilizzano il sistema) possono sviluppare termini, o proprietà, codificare i propri dati, che vengono poi resi immediatamente disponibili agli altri utenti. Creando nuove proprietà, gli utenti possono scegliere i termini appropriati per definire il set di dati con cui stanno lavorando.
Il processo è controllato in quanto un gruppo selezionato di utenti che rappresentano una vasta gamma di campi di paleoclimatologia istituisce un comitato di redazione, che esamina le richieste di nuove o modificate proprietà e determina se le proposte degli utenti devono essere incorporate nel Paleoclimate Community Reporting Standard, o PATTI. Tutte le decisioni prese in merito a PaCTS comportano il contributo di ricercatori di paleoclimatologia, rendendolo trasparente, sforzo comunitario inclusivo e in buona fede.
Il sistema implementa l'intelligenza artificiale per aiutare a tracciare collegamenti tra i dati e renderli più accessibili. "Le tecniche di intelligenza artificiale che utilizziamo sono tecnologie semantiche che ci permettono di rappresentare la conoscenza scientifica, " ha spiegato Gil. "Costruiamo anche quello che chiamiamo il "Grafico della conoscenza della Terra collegata" che esprime le connessioni tra i set di dati, ricercatori, posizioni, pubblicazioni, ecc." Ha notato che, inoltre, gli utenti possono fare "interrogazioni sofisticate delle ontologie e del grafico della conoscenza per accedere facilmente ai dati a cui sono interessati".
La piattaforma è descritta come un sistema socio-tecnico. Insieme a tutti gli aspetti tecnici, l'approccio ha forti aspetti sociali, poiché il valore della piattaforma si basa sulla condivisione delle informazioni. Un incentivo fondamentale per gli utenti è che ricevono il riconoscimento per tutto ciò che contribuiscono alla piattaforma, che viene tracciato e visualizzato nelle pagine del loro profilo. Inoltre, possono caricare le specifiche dei metadati e i set di dati esistenti in più formati standard, rendendo più facile contribuire a, accesso, e unificare i dati.
Esempio di una domanda del sondaggio per un nuovo set di dati. L'istogramma rappresenta il numero di voti su ciascuna piattaforma (arancione:LinkedEarth, viola:Twitter, e verde:sondaggio Google). Il grafico a torta rappresenta la frazione dei voti per essenziale (verde), consigliato (rosa), e desiderato (blu). Credito: Paleoceanografia e Paleoclimatologia
Stabilire lo standard
Sviluppare la piattaforma non è stata una passeggiata nel parco. Khider ha spiegato, "Una delle sfide è stata quella di elaborare il quadro per lo standard, " che si compone di tre elementi:rappresentazione dei dati, vocabolario e requisiti di rendicontazione. "La seconda [sfida] era coinvolgere la comunità, " ha continuato. "Vogliamo tutti standard per far progredire la scienza, ma nessuno vuole davvero parlarne." Un altro problema era capire da dove e come iniziare. Come ha notato Khider, "Alla fine, abbiamo deciso che lo standard dovrebbe riflettere le esigenze di una comunità specifica al fine di fare la scienza più rigorosa ed entusiasmante".
C'erano anche ostacoli dal punto di vista dell'intelligenza artificiale. "La sfida più grande è che la conoscenza scientifica è in continua evoluzione, in modo che gli scienziati sviluppino una migliore comprensione dei dati e dei loro modelli, possono cambiare il modo in cui desiderano che i dati vengano descritti e organizzati nella piattaforma Linked Earth, " Gil ha detto. "[Avevamo bisogno] di adattarsi all'evoluzione delle ontologie e del grafico della conoscenza senza perdere il lavoro che gli utenti avevano svolto nella piattaforma utilizzando versioni precedenti di tale conoscenza".
Ma il duro lavoro è stato ripagato. Non sorprendentemente, la piattaforma ha ricevuto feedback positivi dalla comunità paleoclima. A partire dal 2019, il wiki di crowdsourcing controllato ha 692 set di dati, con 150 utenti registrati e oltre 50 contributori. Più di 14, sono state create 000 pagine, mentre i team di paleoclimatologia e AI continuano il loro lavoro per migliorare la piattaforma e coinvolgere più utenti.
Il riconoscimento da parte dell'AGU è arrivato dopo l'attuazione del progetto. "Gli editori di Paleoceanografia e Paleoclimatologia sono stati determinanti per ottenere visibilità di questo progetto all'interno della comunità selezionando il manoscritto per la loro serie Grand Challenges, " ha osservato Khider. "Avere editori che spingono per gli standard sta aiutando l'impegno della comunità per la seconda versione dello standard, dal momento che vedono interesse per questo tipo di lavoro."
La piattaforma può essere applicata anche ad altri campi. "Stiamo usando [la piattaforma] ora per descrivere i dati delle neuroscienze in un progetto finanziato dal NIH che abbiamo con la collaborazione di ENIGMA, " ha detto Gil. "Un aspetto nuovo di questo dominio è che ogni set di dati descrive i dati per una coorte di persone che fanno parte di uno studio, e contiene una raccolta di osservazioni e non solo una particolare."
Inoltre, PaCTS è solo un terzo del processo di standardizzazione, in quanto tiene conto degli obblighi di rendicontazione. La standardizzazione della rappresentazione dei dati e della terminologia completa il processo. Quest'ultimo comporta il vocabolario e l'ortografia associata, Khider ha notato, poiché la maggior parte dei database contiene concetti identici enunciati in modi diversi, che può rendere difficile l'interrogazione per un particolare set di dati. "Il passo successivo più ovvio è costruire una libreria di quaderni esemplari che mostrino come questi standard e codici aiutino a risolvere problemi di ricerca comuni in paleoclimatologia, e come aprono la porta a nuove indagini, " Ha detto Emile-Geay. "Ora è il momento di far funzionare questi standard per [gli scienziati]".