Credito:CC0 Dominio Pubblico
La tecnologia si sta muovendo a passi da gigante, e con esso, le informazioni con cui la società opera quotidianamente. Tuttavia, il volume dei dati deve essere organizzato, analizzati e correlati per prevedere determinati modelli. Questa è una delle funzioni principali dei cosiddetti Big Data.
I ricercatori del gruppo di ricerca KIDS del Dipartimento di informatica e analisi numerica dell'Università di Cordoba sono stati in grado di migliorare i modelli che prevedono più variabili contemporaneamente sulla base dello stesso insieme di variabili di input, riducendo così la dimensione dei dati necessari per una previsione accurata. Un esempio di questo è un metodo che prevede diversi parametri relativi alla qualità del suolo sulla base di un insieme di variabili come colture piantate, la lavorazione del terreno e l'uso di pesticidi.
"Quando hai a che fare con un grande volume di dati, ci sono due soluzioni. O aumenti le prestazioni del computer, che è molto costoso, o riduci la quantità di informazioni necessarie per il corretto svolgimento del processo, " afferma il ricercatore Sebastian Ventura, uno degli autori dell'articolo di ricerca.
Quando si costruisce un modello predittivo, risultati affidabili dipendono da due questioni:il numero di variabili che entrano in gioco e il numero di esempi inseriti nel sistema. Con l'idea che meno è di più, lo studio ha potuto ridurre il numero di esemplari eliminando quelli ridondanti o "rumorosi, " e che quindi non apportano alcuna informazione utile per la creazione di un migliore modello predittivo.
Come Oscar Reyes, l'autore principale della ricerca, sottolinea "abbiamo sviluppato una tecnica che può dirti quale serie di esempi hai bisogno in modo che la previsione non solo sia affidabile ma potrebbe anche essere migliore". In alcuni database, dei 18 analizzati, sono stati in grado di ridurre la quantità di informazioni dell'80% senza influire sulle prestazioni predittive, il che significa che è stata utilizzata meno della metà dei dati originali. Tutto questo, dice Reyes, "significa risparmiare energia e denaro nella costruzione di un modello, poiché è necessaria una potenza di calcolo inferiore." Inoltre, significa anche risparmiare tempo, che è interessante per le applicazioni che funzionano in tempo reale, poiché "non ha senso che un modello richieda mezz'ora per l'esecuzione se è necessaria una previsione ogni cinque minuti".
Sistemi che prevedono più variabili correlate contemporaneamente, noti come modelli di regressione multi-output, stanno acquisendo un'importanza più notevole a causa dell'ampia gamma di applicazioni che potrebbero essere analizzate sotto questo paradigma di apprendimento automatico, come quelli legati alla sanità, qualità dell'acqua, sistemi di raffreddamento per edifici e studi ambientali.