ShareBackup potrebbe mantenere i dati sulla corsia di sorpasso

Lo scienziato informatico della Rice University Eugene Ng ha guidato lo sviluppo di ShareBackup, una soluzione hardware e software per aiutare i data center a riprendersi dai guasti senza rallentare le applicazioni. Credito:Jeff Fitlow/Rice University

Chiunque abbia mai maledetto una rete di computer mentre rallentava a passo d'uomo apprezzerà il rimedio offerto dagli scienziati della Rice University.

Lo scienziato informatico della Rice, Eugene Ng e il suo team, affermano che la loro soluzione manterrà i dati sulla corsia preferenziale quando inevitabilmente si verificheranno dei guasti.

Ng ha introdotto ShareBackup, una strategia che consentirebbe agli switch di backup condivisi nei data center di gestire il traffico di rete entro una frazione di secondo dopo un guasto di uno switch software o hardware.

Presenterà un documento peer-reviewed sul lavoro questa settimana alla conferenza SIGCOMM 2018 a Budapest, Ungheria. Il documento è online e disponibile per il download.

Ng ha detto che l'idea risolverebbe un fastidio comune tra i professionisti dei dati, scienziati e tutti coloro che fanno affidamento su una rete per fornire risultati giorno dopo giorno.

"Una rete dati è composta da server e switch di rete, " disse Ng, professore di informatica e ingegneria elettrica e informatica. "Gli switch spostano i pacchetti di dati dove devono andare. Ma le cose falliscono, soprattutto nei data center di grandi dimensioni con migliaia di componenti hardware."

La solita risposta a uno switch fallito è deviare il flusso di dati su un'altra linea. "In genere, la rete ha più percorsi per connettere i server quindi, proprio come se c'è una chiusura in autostrada, ci gireremmo intorno. Questo è un convenzionale, approccio naturale che ha molto senso:deviare intorno al fallimento per arrivare dove devi andare."

Ma a volte quell'altra strada è congestionata e tutto rallenta. "I data center non sono Internet, non riguardano le persone che navigano in siti web, "Ng ha detto. "Si tratta di supportare applicazioni data-intensive come il data mining o l'apprendimento automatico. E molte di queste applicazioni hanno scadenze rigorose per le prestazioni, quindi reindirizzare alla cieca il traffico potrebbe essere la cosa sbagliata da fare in un data center."

Piuttosto che la costosa opzione di installare switch ridondanti in una rete, la strategia del laboratorio Ng metterebbe switch veloci e software in posizioni strategiche che potrebbero raccogliere il traffico da uno switch guasto in un microsecondo. Quando quel problema sarà risolto, il software del team rende disponibile lo switch di backup per gestire un altro errore.

L'interruttore è abbastanza veloce:il tempo di ripristino degli errori è di 0,73 millisecondi, inclusa la latenza dall'hardware e dai sistemi di controllo, che la maggior parte degli utenti non avrebbe mai saputo che una parte del sistema era guasta.

"La realtà è che la frazione di dispositivi che si guastano in un dato momento è molto piccola, e la maggior parte di questi errori può essere risolta da cose come il riavvio del dispositivo, "Ng ha detto. "A volte il software si rovina e un semplice ciclo di alimentazione lo riporta indietro. Questi fallimenti potrebbero anche non durare a lungo.

"Queste sono le caratteristiche che stiamo cercando di sfruttare, " ha detto. "Per questo motivo, possiamo cavarcela con pochissimi dispositivi che eseguono il backup di un gran numero di dispositivi."

Ng ha affermato che ShareBackup potrebbe far risparmiare tempo e denaro ai data center non solo mantenendo la larghezza di banda completa ma anche aiutando ad analizzare i problemi, comprese le configurazioni errate che comunemente portano a guasti della rete.

"Parte del nostro lavoro è aiutare i data center a capire cosa è andato storto nella rete, " ha detto. "Una volta attivato il backup, è possibile rimuovere il dispositivo guasto dalla rete di produzione e testarlo per identificare quale componente ha causato il problema.

"Ora, se togliamo due dispositivi e non riusciamo a capire quale è andato male, entrambi devono essere sostituiti, " ha detto. "È molto probabile che solo uno dei dispositivi abbia il problema. Il nostro software è in grado di diagnosticare questi dispositivi in modo semiautomatico, e se una delle parti è buona, può essere reintegrato".

Google chiarisce la politica di localizzazione

Questa azienda di tecnologia automobilistica della Silicon Valley sta portando un'arma segreta per le strade di Sacramento

Elettronica