• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Le query sui big data sono diventate universali

    (da sinistra a destra) Fuad Jamour, Panos Kalnis e Yanzhao Chen stanno costruendo sistemi e algoritmi per l'elaborazione e l'analisi di set di dati molto grandi. Credito:2019 KAUST

    Per risolvere uno degli ostacoli chiave nella scienza dei big data, I ricercatori KAUST hanno creato un framework per la ricerca di set di dati molto grandi che funziona facilmente su diverse architetture di elaborazione. Il loro raggiungimento consente ai ricercatori di concentrarsi sull'avanzamento del motore di ricerca, o motore di query, stesso piuttosto che sulla codifica scrupolosa per piattaforme di elaborazione specifiche.

    I big data sono uno degli aspetti più promettenti ma impegnativi del mondo odierno ricco di informazioni. Mentre gli enormi insiemi di informazioni in continua espansione, come dati raccolti online o informazioni genetiche, potrebbe contenere potenti intuizioni per la scienza e l'umanità, l'elaborazione e l'interrogazione di tutti questi dati richiedono tecniche altamente sofisticate.

    Sono stati esplorati molti approcci diversi per interrogare i big data. Ma uno dei più potenti ed efficaci dal punto di vista computazionale si basa sull'analisi dei dati con una struttura triplestore soggetto-predicato-oggetto del modulo (ad es. Mela, è un, frutta). Questa struttura si presta ad essere trattata come un grafo con spigoli e vertici, e questa caratteristica è stata utilizzata per codificare motori di query per architetture di calcolo specifiche per la massima efficienza. Però, tali approcci specifici dell'architettura non possono essere facilmente trasferiti su piattaforme diverse, limitare le opportunità di innovazione e progresso nell'analisi.

    "I moderni sistemi informatici forniscono diverse piattaforme e acceleratori, e programmarli può essere intimidatorio e richiedere molto tempo, "dicono Fuad Jamour e Yanzhao Chen, dottorato di ricerca candidati nel gruppo di Panos Kalnis nell'Extreme Computing Research Center di KAUST. "Il nostro gruppo di ricerca si concentra sulla creazione di sistemi e algoritmi per l'elaborazione e l'analisi di set di dati molto grandi. Questa ricerca affronta il desiderio di scrivere un programma una volta e quindi utilizzarlo su piattaforme diverse".

    Panos Kalnis e i suoi studenti, Yanzhao Chen e Fuad Jamour, stanno costruendo sistemi e algoritmi per l'elaborazione e l'analisi di set di dati molto grandi. Credito:2019 KAUST

    Piuttosto che gli approcci di attraversamento di grafi o di indicizzazione relazionale esaustivi utilizzati in precedenza, il gruppo ha interrogato i dati triplestore utilizzando un approccio matematico applicato chiamato algebra a matrice sparsa.

    "Il nostro articolo descrive il primo motore di ricerca grafico-query con algebra delle matrici al centro per affrontare il problema della portabilità, " dice Jamour. "La maggior parte dei motori di query grafiche esistenti sono progettati per singoli computer o piccoli sistemi di memoria distribuita. E il porting di motori esistenti su grandi sistemi a memoria distribuita, come i supercomputer, comporta un notevole sforzo ingegneristico. Il nostro schema di algebra a matrice sparsa può essere utilizzato per costruire scalabili, motori di interrogazione grafici portatili ed efficienti."

    Gli esperimenti del team su set di dati reali e sintetici su larga scala hanno raggiunto prestazioni paragonabili a, o meglio di, approcci specializzati esistenti per query complesse. Il loro schema ha anche la capacità di scalare fino a infrastrutture informatiche molto grandi che gestiscono set di dati fino a 512 miliardi di triple.

    "Queste idee possono facilitare la creazione di componenti di analisi in database grafici con prestazioni all'avanguardia, che è attualmente molto richiesto, "dice Chen.


    © Scienza https://it.scienceaq.com