Il modello a effetti misti consente un'identificazione più accurata degli hotspot in cui le variabili atmosferiche si relazionano in modo diverso rispetto ad altre aree. Credito:John Wiley &Sons Ltd.
Un metodo più affidabile per identificare le regioni con diverse relazioni tra inquinamento atmosferico e condizioni meteorologiche migliora l'individuazione dei punti critici di inquinamento.
La relazione tra le condizioni meteorologiche e l'inquinamento atmosferico è complessa e può variare notevolmente da un luogo all'altro. Ciò rende difficile individuare le fonti di inquinamento e prevederne il comportamento nell'atmosfera. Mentre i data scientist e gli statistici hanno compiuto progressi significativi nella lotta contro questo problema, gli enormi volumi di dati ambientali e la moltitudine di variabili, come la velocità del vento, componente temperatura e inquinamento, richiedono compromessi per rendere il problema gestibile.
Per esempio, la maggior parte degli approcci esistenti per rilevare "punti caldi" nella correlazione tra variabili nei dati spaziali implica la costruzione di una griglia in cui la relazione tra le variabili in una cella viene trattata indipendentemente da tutte le altre. Sebbene questo non sia del tutto realistico - spesso c'è dipendenza tra le aree spaziali, in particolare nei dati meteorologici e sull'inquinamento atmosferico - è straordinariamente difficile trovare punti caldi spaziali e determinare la struttura di dipendenza spaziale allo stesso tempo.
Ying Sun e Junho Lee dell'Environmental Statistics Laboratory di KAUST hanno fatto un balzo in avanti nell'affrontare questo problema con lo sviluppo di un "modello a effetti misti" per il rilevamento degli hotspot.
Questa mappa mostra come il modello ad effetto misto suddivide in blocchi gli Stati Uniti nordorientali, consentendo loro di identificare gli "hotspot". Credito:John Wiley &Sons Ltd
"Affrontiamo il problema utilizzando una semplice struttura a blocchi spaziali per approssimare la dipendenza spaziale, ", afferma Lee. "Questo ci consente di trovare hotspot spaziali che mostrano modelli distinti riducendo il tasso di falsi positivi dovuti alla dipendenza spaziale".
L'approccio, sviluppato in collaborazione con Howard Chang della Emory University negli Stati Uniti, comporta la suddivisione della regione in blocchi e l'applicazione sequenziale di effetti casuali ai blocchi per individuare forti correlazioni dovute alla variabilità di fondo o al "rumore". Questo ha l'ulteriore vantaggio di poter identificare un numero qualsiasi di cluster di hotspot nei dati, compresi i cluster che possono sovrapporsi.
"La sfida principale era come decidere una dimensione di blocco appropriata per gli effetti casuali, " dice Lee. "Abbiamo deciso di far corrispondere la dimensione del blocco all'intervallo di dipendenza spaziale nei dati".
Il team ha applicato il proprio metodo per analizzare i dati sull'inquinamento atmosferico negli Stati Uniti nordorientali. Hanno scoperto che in estate, le concentrazioni di particolato micrometrico nell'aria (PM2,5) aumentavano con la temperatura e diminuivano con l'umidità relativa nella maggior parte della regione.
"Però, con il nostro approccio, potremmo trovare zone distinte con andamento opposto, come nella zona di Chesapeake Bay, dove c'è un'associazione negativa tra PM2,5 e temperatura, e intorno al Maine dove esiste una correlazione positiva tra PM2,5 e umidità relativa, "dice Lee.