Il nuovo aggiornamento di hardware e software porta buone notizie a oltre 52, 000 utenti del sistema di archiviazione di massa a lungo termine Ranch di TACC. Credito:TACC
C'è una battuta del comico Steven Wright che dice:"Non puoi avere tutto. Dove lo metteresti?"
Gli utenti di computer avanzati possono probabilmente riguardare questo. La crescita esponenziale dei dati pone una forte sfida agli sforzi per il suo storage affidabile. Da oltre 12 anni, il sistema Ranch presso il Texas Advanced Computing Center (TACC) ha fornito l'archiviazione a lungo termine di dati di ricerca che vanno dall'astrofisica alla scienza del clima alla fisica delle particelle, e altro ancora. Un nuovo aggiornamento hardware e software porta buone notizie a oltre 52 persone, 000 utenti del sistema di archiviazione dati di massa a lungo termine Ranch di TACC.
Gli archivi sono preziosi per gli scienziati che desiderano utilizzare i dati per aiutare a riprodurre le misurazioni ei risultati della ricerca precedente. La riproducibilità computazionale è una parte del più ampio concetto di riproducibilità scientifica, che costituisce un caposaldo del metodo scientifico.
TACC si sforza di supportare in modo completo le esigenze di dati degli scienziati. I sistemi di elaborazione locali come Stampede2 e Lonestar forniscono uno spazio di lavoro ad alta velocità dedicato per l'archiviazione temporanea dei dati. I prossimi gradini sono i sistemi di raccolta dati frontali di Stockyard e Corral, che forniscono uno storage combinato di 50 petabyte direttamente accessibile tramite connessioni web ad alta velocità o la griglia di dati iRODS. Ranch, d'altra parte, consente l'archiviazione a lungo termine dei dati per mesi o anni.
Il sistema di archiviazione Ranch di TACC include una libreria a nastro Quantum Scalar i6000 con il file system di archiviazione StorNext che coordina l'archiviazione sia su disco che su nastro. Vista interna (sinistra) ed esterna (destra). Credito:TACC
A partire da aprile 2019, Il ranch immagazzina oltre 70 petabyte, o 70 milioni di gigabyte di dati scientifici. oltre 52, 000 utenti hanno caricato quasi 1,7 miliardi di file di computer sulla vecchia libreria di Ranch che è in fase di aggiornamento. Ipoteticamente, i nuovi aggiornamenti a Ranch potrebbero espandere il suo spazio di archiviazione per raggiungere un exabyte da capogiro, o 1, 000 petabyte.
"Per gli utenti, più dati saranno più facilmente disponibili, con 15 volte più cache del disco rispetto a quella che avevamo nel precedente sistema Ranch, " ha detto Tommy Minyard, direttore di Advanced Computing Systems presso TACC. Dati aggiornati generati da supercomputer TACC come Stampede2, Stella solitaria, o Maverick viene messo in scena per primo sul disco rotante e sulle unità flash del Ranch, poi in seguito spostato sui nastri.
Il ranch è stato aggiornato con un sistema di storage a blocchi fornito da DataDirect Networks, il DDN SFA14K DCR, che fornisce 30 petabyte di cache del disco rotante, contro solo due sull'hardware sostituito. "Ciò significa che saremo in grado di conservare molti più dati memorizzati su dischi in modo che siano recuperabili più rapidamente e non sia necessario richiamarli dal nastro, " ha aggiunto Minyard.
Un altro gradito cambiamento al Ranch arriva dalla società Quantum, che ha fornito una libreria a nastro Scalar i6000 con il file system di archiviazione Quantum StorNext che coordina l'archiviazione su disco e su nastro. "Abbiamo scelto il sistema Quantum in base alla sua capacità e flessibilità, " disse Junseong Heo, amministratore e gestore di sistemi senior, Sistemi su larga scala del gruppo Advanced Computing Systems di TACC.
Ranch aggiornato al sistema di archiviazione a blocchi DDN SFA14K DCR, fornito da DataDirect Networks, che fornisce 30 petabyte di cache del disco rotante. Credito:TACC
"In particolare, Quantum fornisce un meccanismo di controllo delle quote che consente a TACC di fornire un'area di progetto basata sull'allocazione per gli utenti, " Ha aggiunto Heo. Ciò significa che gli utenti possono avere un accesso molto più semplice ai dati e supervisionare l'utilizzo delle risorse. "La quota basata sul progetto è stata in cima alla lista dei desideri degli utenti in passato, "Ha detto.
"L'attenzione di TACC alla costante innovazione crea un ambiente che pone un enorme stress sullo stoccaggio, e Quantum è da tempo in prima linea nella gestione di soluzioni che soddisfano la più estrema affidabilità, accessibilità e massicci requisiti di scalabilità, " disse "Eric Bassier, Direttore senior del marketing di prodotto, Quantico. "La combinazione del nastro scalare con le funzionalità di gestione dei dati StorNext crea una soluzione HSM (gestione dell'archiviazione gerarchica) in grado di fornire prestazioni nelle condizioni impegnative dell'ambiente TACC".
"Il nuovo sistema fornisce alcune funzionalità aggiuntive per consentirci di gestire i dati del progetto e i livelli di storage meglio del vecchio sistema, " ha aggiunto Minyard. Questa è una buona notizia soprattutto per gli utenti di Ranch pesanti, la cui allocazione potrebbe cambiare frequentemente. I 100 utenti più pesanti messi insieme hanno più di 20 petabyte sull'attuale sistema di archiviazione.
Uno dei grandi cambiamenti che noteranno gli utenti è l'adozione dell'ambiente Community Enterprise Operating System (CentOS), che ha sostituito il precedente ambiente Solaris. Mentre gli utenti navigano in CentOS per migrare i propri file nelle nuove librerie Ranch, TACC fornisce 12 mesi di accesso in sola lettura ai dati nella vecchia biblioteca fino alla fine del 31 marzo, 2020. Gli utenti dovrebbero ispezionare e migrare i dati in dimensioni favorevoli per gli archivi su nastro, preferibilmente più grande di 100 gigabyte nella dimensione del singolo file.
"I dati di archivio non sono affascinanti, ma è necessario, " ha detto Minyard. "Non so quante volte abbiamo avuto il panico di qualcuno per aver cancellato accidentalmente un file, dove TACC è stato in grado di richiamare il file per loro da Ranch. Dal loro punto di vista, Il ranch è un salvavita, " disse Minyard.