• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • L'archivio di set di dati gratuito aiuta i ricercatori a trovare rapidamente un ago in un pagliaio

    Ahmed Eldawy. Credito:UC Riverside

    Supponiamo che tu stia facendo ricerche che richiedono milioni di tweet georeferenziati. O forse sei un giornalista che vuole mappare gli omicidi a Chicago dal 2001 ad oggi. Hai bisogno di trovare grandi set di dati spazio-temporali, ma dove?

    Sebbene ci siano centinaia di set di dati pubblicamente disponibili, individuarli può richiedere mesi di ricerca. Quando si trovano potenziali fonti, raramente forniscono informazioni sufficienti per consentire a un ricercatore di decidere se il set contiene effettivamente il tipo di dati di cui hanno bisogno senza scaricare il file spesso enorme e ordinarlo prima.

    Grazie a un informatico dell'Università della California, lungo il fiume, trovare il set di dati giusto ora è facile come aggiungere un sito ai preferiti, e non costa assolutamente nulla.

    Ahmed Eldawy, un assistente professore di informatica al Marlan and Rosemary Bourns College of Engineering, e il suo gruppo hanno passato gli ultimi tre anni a setacciare Internet per set di dati spazio-temporali pubblici, studiando i loro attributi, e riassumendo i risultati per ogni set su mappe interattive che mostrano all'utente esattamente cosa sta ottenendo.

    "Le persone che lavorano sulla scienza dei dati hanno bisogno di set di dati ma possono dedicare molto tempo a trovarli, " disse Eldawy. "Volevo creare un archivio che potessero trovare facilmente".

    Chiamato il repository attivo spazio-temporale UCR, o UCR STAR, l'archivio è reso disponibile come servizio alla comunità di ricerca per fornire un facile accesso a grandi insiemi di dati spazio-temporali attraverso un'interfaccia esplorativa interattiva. Gli utenti possono cercare e filtrare questi set di dati come se stessero acquistando per la loro ricerca, tranne che è tutto gratis.

    "L'interfaccia della mappa visualizza i dati, così puoi vedere se va bene, " ha detto Eldawy. "È come un catalogo per set di dati."

    Al centro di UCR STAR, la mappa fornisce un'interfaccia esplorativa interattiva per il set di dati. Simile a Google Maps o altre mappe web, gli utenti possono ingrandire e rimpicciolire e fare una panoramica per ottenere una rapida panoramica della distribuzione dei dati, copertura, e precisione.

    I dettagli importanti vengono visualizzati una volta selezionato un set di dati, come la homepage originale, un collegamento alla fonte di download originale, dimensione in byte, numero di record, formato del file, e altre informazioni utili. La funzione di download del sottoinsieme consente agli utenti di scaricare rapidamente i dati in una determinata regione geografica, che riduce la dimensione del download. Possono anche incorporare la loro visualizzazione personalizzata in una pagina Web o condividere il collegamento tramite i social media e aggiungerlo ai segnalibri per rivisitarlo in seguito.

    UCR STAR contiene 102 set di dati e 5 miliardi di record. I set di dati sono stati mappati utilizzando Da Vinci, un framework open source costruito su Apache Spark che Eldawy ha progettato per funzionare con i dati spaziali. È possibile accedere al sito Web UCR STAR tramite un browser desktop, ma ha anche un'interfaccia ottimizzata per dispositivi mobili limitata.


    © Scienza https://it.scienceaq.com