È iniziato lo sviluppo della piattaforma software Tapis, che mira ad aiutare i ricercatori a sfruttare più facilmente potenti supercomputer e integrare e gestire dati provenienti da fonti diverse e lontane. Credito:TACC/UH
Gli scienziati che desiderano ridurre la loro complessità alla ricerca e aggiungere un nuovo strumento di calcolo alla loro cintura degli attrezzi possono esplorare il progetto Tapis. La piattaforma software Tapis mira ad aiutare i ricercatori a sfruttare più facilmente potenti supercomputer ea integrare e gestire dati provenienti da fonti diverse e distanti.
La National Science Foundation (NSF) ha assegnato una sovvenzione di 2,9 milioni di dollari al Texas Advanced Computing Center (TACC) e all'Università del Texas ad Austin (UT Austin), oltre a un premio di $ 1 milione all'Università delle Hawaii (UH). I premi NSF sono iniziati a settembre 2019 e supportano lo sviluppo continuo di Tapis, abbreviazione di TACC-API e gioca con la parola arazzo, intrecciando servizi e capacità. Un'interfaccia di programmazione dell'applicazione (API) è un'interfaccia per un sistema software che è stato creato o progettato per essere utilizzato da un altro programma.
"Tapis è una piattaforma di ricerca informatica per la scienza computazionale e la ricerca computazionale, " ha detto il ricercatore principale (PI) Joe Stubbs, che gestisce il Cloud and Interactive Computing Group presso TACC. "Tapis è un sistema software che aiuta i ricercatori a utilizzare i supercomputer e altri tipi di risorse informatiche che abbiamo qui al TACC e in altri luoghi".
"Il modo più semplice per descrivere Tapis è che si tratta di un'applicazione basata sul web che fornisce tutti gli strumenti di cui uno scienziato moderno ha bisogno per eseguire operazioni ad alta intensità di dati, ricerca computazionalmente intensiva, " ha affermato la co-PI Gwen A. Jacobs, Direttore delle infrastrutture informatiche, Sistema dell'Università delle Hawaii. "Una delle cose che differenzia Tapis è che unisce tutti gli strumenti importanti di cui il ricercatore ha bisogno. Questo è il vero potere di Tapis".
Tapis servirà un gruppo eterogeneo di utenti con diverse competenze nell'uso di strumenti computazionali per la loro ricerca. A un'estremità dello spettro ci saranno gli "utenti esperti" con una vasta esperienza di risorse informatiche avanzate e programmazione. Tapis li aiuterà ad automatizzare e ottimizzare i loro grandi flussi di lavoro o pipeline di applicazioni software.
All'estremo opposto dello spettro ci sono gli scienziati che stanno appena iniziando a sfruttare le possibilità di applicare l'informatica avanzata alla loro ricerca. "Quello che stiamo cercando di fare per loro con Tapis, "disse Stubbs, "è avere la strada più semplice per accedere all'esecuzione di programmi computazionali sui supercomputer".
E poi c'è il gruppo nel mezzo, tipicamente grandi progetti di sviluppo software focalizzati su specifici domini di ricerca, come l'immunologia, astronomia, o bioinformatica.
"L'obiettivo con Tapis è consentire ai ricercatori di accedere a queste risorse computazionali in un modo più intuitivo, ", ha detto Stubbs.
Le risorse computazionali finanziate dalla NSF sono ampiamente descritte come infrastrutture cibernetiche, l'ecosistema online condiviso dai ricercatori, supportato da risorse informatiche avanzate, ospitato in data center, e supportato da esperti. "I team di sviluppatori Web e altri sviluppatori su quei progetti di infrastrutture cibernetiche possono sfruttare Tapis per costruire più rapidamente il loro progetto di infrastrutture cibernetiche".
A questi fini, un esempio è il supporto del framework API TAPIS per lo streaming dei dati dei sensori, dove in un flusso di lavoro complesso, un evento, come un rilevamento su un array di sensori, può innescare un altro evento, e così via, o anche più routine di analisi.
"Event-driven computing, " ha spiegato Jacobs, "significa che il flusso di lavoro non è sempre in esecuzione. Questa è una grande funzionalità per gli scienziati che devono acquisire i propri dati sporadicamente, dove ottengono dati da fonti come sensori e caricamenti di dati. Ciò significa che non devono eseguire tutto il codice manualmente. Una volta impostato il flusso di lavoro, può essere un computer a mani libere, in un modo, analisi a mani libere."
Tapis integrerà il progetto Cloud-Hosted Real-time Data Services for the Geosciences (CHORDS), parte di EarthCube finanziato dalla NSF, per ottenere l'elaborazione guidata dagli eventi.
Le API applicate alla scienza consentono a diversi sistemi di dialogare tra loro, in un senso. "L'idea con Tapis, "disse Stubbs, "è avere un'interfaccia leggibile dalla macchina e consumabile per le risorse computazionali, come i supercomputer, ma anche sistemi di storage ad alte prestazioni, come il nostro sistema di archiviazione Corral, o il nostro file system globale, Magazzino, e altri filesystem in tutto il paese. Vogliamo avere un'interfaccia facilmente accessibile e manipolabile in altri programmi."
Un'altra caratteristica che Tapis offrirà è un nuovo kernel di sicurezza, che agisce come un cancello che controlla l'accesso alle risorse di sistema. Il kernel di sicurezza Tapis sarà decentralizzato, consentendo agli scienziati di gestire più facilmente le proprie applicazioni e mantenere il controllo locale sui dati riservati.
"Il nuovo kernel di sicurezza ci permette di offrire tutta la sicurezza gestita, autenticazione, e autorizzazioni che sono state fatte in passato, " ha affermato il co-PI Sean Cleveland, uno scienziato ricercatore di infrastrutture cibernetiche presso l'Università delle Hawaii. "Ma consentirà anche ai data center e alle istituzioni di implementare il proprio kernel di sicurezza, in modo che possano utilizzare le proprie credenziali utente e gestire la propria sicurezza a modo loro, oltre a distribuire i singoli componenti del quadro presso la loro istituzione, ed essere in grado di sfruttare parte del lavoro centralizzato. è un nuovo, sistema ibrido di utilizzo della scienza come servizio, piattaforma come servizio, ma se vuoi più controllo e personalizzazione, puoi distribuire pezzi più piccoli sul posto ed essere ancora in grado di sfruttare alcuni dei più grandi, componenti gestiti per le diverse esigenze."
Tapis darà agli utenti la possibilità di semplificare il processo di creazione di applicazioni, un potente strumento per gli scienziati. "Se puoi programmare un flusso di lavoro e farlo funzionare in una piattaforma come Tapis, che rende il processo più semplice perché tutti i componenti possono parlare tra loro più facilmente, " ha detto Jacobs. "Ciò significa che l'investigatore deve costruire quel flusso di lavoro una volta. Quindi salvano quel flusso di lavoro come applicazione all'interno dell'infrastruttura Tapis e lo riutilizzano".
Il salvataggio di tutti i parametri dell'ambiente software consentirà inoltre agli scienziati di tornare indietro ed eseguire nuovamente l'analisi dei dati in un secondo momento, che promuove la riproducibilità scientifica.
"Questa è davvero una collaborazione completa tra TACC e l'Università delle Hawaii, " ha spiegato Stubbs.
TACC offre una vasta esperienza nel calcolo ad alte prestazioni e nella creazione di sistemi software distribuiti. I componenti stessi di Tapis possono funzionare su materie prime, o server standard, sebbene alcuni componenti di TACC funzioneranno sul cloud Jetstream finanziato dalla NSF.
I membri del team di UH stanno contribuendo allo sviluppo, design, e architettura del sistema Tapis. Cosa c'è di più, danno accesso a un'abbondanza di importanti ricerche di dominio uniche per le Hawaii in aree come il clima, oceano, barriere coralline, microbioma umano, e studi di popolazione sulle disparità di salute.
"Avere il progetto Tapis per noi qui alle Hawaii è un enorme aumento di consapevolezza per l'applicazione di infrastrutture informatiche avanzate alla scienza ad alta intensità di dati, " ha detto Jacobs. "Senza un progetto come questo, molti dei nostri investigatori potrebbero non essere a conoscenza di queste risorse".
Una delle principali pietre miliari verso cui stanno lavorando i ricercatori è un seminario di fine anno per i primi utenti nell'estate del 2020. "L'idea è di avere il seminario in cui invitiamo i ricercatori a venire, portare i loro set di dati, per dare presentazioni sulla loro scienza e caso d'uso, ma anche per il team Tapis per presentare le capacità del sistema entro la fine del primo anno, ", ha detto Stubbs.
"Siamo davvero entusiasti di lanciare il nuovo progetto Tapis finanziato da NSF, ", ha affermato il co-PI Maytal Dahan, Direttore delle interfacce di calcolo avanzate presso TACC. "Tapis trasformerà la produttività degli scienziati facilitando la scoperta, accesso e utilizzo di potenti capacità e servizi di infrastrutture informatiche. Vogliamo ridurre la complessità per realizzare la scienza e migliorare il time-to-science offrendo una varietà di servizi API sicuri e robusti in grado di supportare i nostri utenti in un ambiente di produzione di qualità.
Il team TACC lavorerà su vari aspetti del progetto:sviluppo di un kernel di sicurezza, API di dati in streaming e integrazione, garanzia di qualità e test di integrazione continui, sensibilizzazione, formazione e sviluppo della forza lavoro. Sono davvero orgoglioso della squadra, sia al TACC che all'UH, e siamo tutti entusiasti di collaborare con la comunità scientifica sin dall'inizio tramite il nostro programma per i primi utenti per creare servizi che abbiano un impatto positivo sulla comunità scientifica".
Il progetto Tapis è finanziato nell'ambito della Cyberinfrastructure for Sustained Innovation (CSSI), un programma NSF trasversale guidato dall'Office of Advanced Cyberinfrastructure (OAC). "CSSI supporta lo sviluppo di un'infrastruttura informatica innovativa che consente alle comunità di ricercatori di continuare e accelerare i progressi in tutti i domini scientifici e ingegneristici fondamentali supportati da NSF, " ha detto il dottor Stefan Robila, il Direttore del Programma in OAC che gestisce il premio. "Sfruttando il lavoro precedente e sfruttando le risorse computazionali della leadership esistenti come quelle disponibili presso TACC, Tapis contribuisce al continuo rafforzamento della cyberinfrastruttura nazionale, abbassando allo stesso tempo le barriere per accedervi”.