Credito:CC0 Dominio Pubblico
Modellazione predittiva di set di dati molto grandi, come misurazioni ambientali, su una vasta area può essere un esercizio altamente computazionalmente intensivo. Queste richieste computazionali possono essere significativamente ridotte applicando varie approssimazioni, ma a quale prezzo per la precisione? I ricercatori KAUST hanno ora sviluppato strumenti statistici che aiutano a rimuovere le congetture da questo processo di approssimazione.
"Nelle statistiche spaziali, è estremamente dispendioso in termini di tempo adattare un modello di processo standard a grandi set di dati utilizzando i metodi basati sulla verosimiglianza più accurati, "dice Yiping Hong, che ha condotto la ricerca. "I metodi di approssimazione possono ridurre significativamente il tempo di calcolo e le risorse di calcolo".
Piuttosto che modellare la relazione tra ciascuna coppia di osservazioni in modo esplicito utilizzando un modello di processo standard, i metodi di approssimazione cercano di adottare una struttura di modellazione alternativa per descrivere le relazioni nei dati. Questo approccio è meno accurato ma più intuitivo dal punto di vista computazionale. Il metodo di stima tile low-rank (TLR) sviluppato da KAUST, Per esempio, applica un'approssimazione a blocchi per ridurre il tempo di calcolo.
"Così, è necessario determinare alcuni parametri di sintonizzazione, come il numero di blocchi da dividere e la precisione dell'approssimazione del blocco, " dice Hong. "Per questo, abbiamo sviluppato tre criteri per valutare la perdita di efficienza di previsione, o la perdita di informazioni, quando il modello è approssimato."
In mancanza di misure informative per valutare l'impatto dell'approssimazione, Hong, insieme allo scienziato computazionale Sameh Abdulah e agli statistici Marc Genton e Ying Sun, sviluppato il proprio. Le tre misure:la perdita media di efficienza, l'errata specificazione media e una radice quadratica media dell'errata specificazione media, insieme forniscono informazioni sull'"adattamento" dei parametri di approssimazione al set di dati, compresa la variabilità delle previsioni, e non solo la valutazione punto per punto data dal criterio di previsione convenzionale.
"Possiamo utilizzare i nostri criteri per confrontare le prestazioni di previsione del metodo TLR con diversi parametri di ottimizzazione, che ci permette di suggerire i migliori parametri da utilizzare, "dice Hong.
Il team ha applicato il metodo a un vero set di dati di misurazioni dell'umidità del suolo ad alta risoluzione nel bacino del Mississippi. Regolando i parametri di accordatura utilizzando le nuove misure, l'approssimazione TLR ha fornito stime molto vicine alle stime esatte di massima verosimiglianza, con un tempo di calcolo significativamente più breve.
"I nostri criteri, che sono stati sviluppati per scegliere il parametro di sintonizzazione per TLR, può essere utilizzato anche per mettere a punto altri metodi di approssimazione, " dice Hong. "Ora abbiamo in programma di confrontare le prestazioni di altri metodi di approssimazione sviluppati per grandi set di dati spaziali, che fornirà una guida preziosa per l'analisi dei dati reali."