Il team, guidato dal professore di informatica Jure Leskovec, ha creato un sistema chiamato "Data Wrangler" in grado di pulire e trasformare automaticamente i dati grezzi in un formato più accessibile e utilizzabile.
"I dati grezzi del governo sono spesso confusi e difficili da comprendere", ha affermato Leskovec. "Il nostro obiettivo era creare uno strumento che potesse rendere questi dati più accessibili alle persone che desiderano utilizzarli per la ricerca, il giornalismo o altri scopi."
Data Wrangler funziona utilizzando una varietà di tecniche di apprendimento automatico e di elaborazione del linguaggio naturale per identificare e correggere errori nei dati, nonché per estrarre informazioni significative dal testo.
Il sistema può essere utilizzato per analizzare un'ampia varietà di dati governativi, inclusi registri finanziari, statistiche sulla criminalità e dati ambientali.
Leskovec e il suo team hanno già utilizzato Data Wrangler per analizzare diversi set di dati di grandi dimensioni, tra cui l'American Community Survey dell'U.S. Census Bureau e i dati sugli arresti e le perquisizioni del dipartimento di polizia di New York City.
I risultati di queste analisi sono stati pubblicati in diverse riviste accademiche e sono stati utilizzati da giornalisti e politici per informare il loro lavoro.
"Crediamo che Data Wrangler abbia il potenziale per rivoluzionare il modo in cui le persone utilizzano i dati governativi", ha affermato Leskovec. "Rendendo questi dati più accessibili e utilizzabili, possiamo consentire alle persone di prendere decisioni migliori sulla loro vita e sulla loro comunità."
La ricerca del team è stata pubblicata sulla rivista "Nature Machine Intelligence".