Credito:Stuart Miles/Freerange
Se guardi sotto il cofano di Internet, troverai molti ingranaggi in movimento che rendono tutto possibile.
Per esempio, prendi un'azienda come AT&T. Devono capire intimamente quali dati Internet stanno andando e dove in modo che possano adattarsi meglio ai diversi livelli di utilizzo. Ma non è pratico monitorare con precisione ogni pacchetto di dati, perché le aziende semplicemente non hanno quantità illimitate di spazio di archiviazione. (I ricercatori in realtà lo chiamano il "problema di Britney Spears, " chiamato per gli sforzi di lunga data dei motori di ricerca per conteggiare gli argomenti di tendenza.)
A causa di ciò, le aziende tecnologiche utilizzano algoritmi speciali per stimare approssimativamente la quantità di traffico diretto a diversi indirizzi IP. Gli algoritmi di stima della frequenza tradizionali comportano "hashing, " o suddividendo casualmente gli elementi in diversi bucket. Ma questo approccio esclude il fatto che ci siano modelli che possono essere scoperti in grandi volumi di dati, come il motivo per cui un indirizzo IP tende a generare più traffico Internet di un altro.
I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno escogitato un nuovo modo per trovare tali modelli utilizzando l'apprendimento automatico.
Il loro sistema utilizza una rete neurale per prevedere automaticamente se un elemento specifico apparirà frequentemente in un flusso di dati. Se lo fa, è posto in un secchio separato di cosiddetti "colpitori pesanti" su cui concentrarsi; se non lo fa, è gestito tramite hashing.
"È come una situazione di triage in un pronto soccorso, dove diamo la priorità ai problemi più grandi prima di arrivare a quelli più piccoli, " dice il professor Piotr Indyk del MIT, coautore di un nuovo articolo sul sistema che sarà presentato a maggio alla Conferenza internazionale sulle rappresentazioni dell'apprendimento a New Orleans, Louisiana. "Apprendimento delle proprietà dei battitori pesanti quando entrano, possiamo fare la stima della frequenza in modo molto più efficiente e con molti meno errori."
Nei test, Il team di Indyk ha dimostrato che il loro approccio basato sull'apprendimento aveva fino al 57 percento in meno di errori per stimare la quantità di traffico Internet in una rete, e oltre il 71% di errori in meno per la stima del numero di query per un determinato termine di ricerca.
Il team chiama il loro sistema "LearnedSketch, " perché lo vedono come un metodo per "abbozzare" i dati in un flusso di dati in modo più efficiente. Per quanto ne sanno, è il primo approccio al mondo basato sull'apprendimento automatico non solo per la stima della frequenza stessa, ma per una classe più ampia di cosiddetti algoritmi "streaming" che vengono utilizzati in tutto, dai sistemi di sicurezza all'elaborazione del linguaggio naturale.
LearnedSketch potrebbe aiutare le aziende tecnologiche a elaborare in modo più efficace tutti i tipi di dati significativi, dagli argomenti di tendenza su Twitter ai picchi di traffico web che potrebbero suggerire futuri attacchi denial-of-service distribuiti. Le società di e-commerce potrebbero utilizzarlo per migliorare i consigli sui prodotti:se LearnedSketch scoprisse che i clienti tendono a fare acquisti più comparativi per l'elettronica domestica che per i giocattoli, potrebbe dedicare automaticamente più risorse per garantire l'accuratezza dei suoi conteggi di frequenza per l'elettronica.
"Abbiamo tutti familiarità con le applicazioni di apprendimento automatico rivolte ai consumatori come l'elaborazione del linguaggio naturale e la traduzione vocale, "dice Sergei Vassilvitskii, un informatico che studia l'apprendimento automatico algoritmico e non è stato coinvolto nel progetto. "Questa linea di lavoro, d'altra parte, è un esempio entusiasmante di come utilizzare l'apprendimento automatico per migliorare il sistema di elaborazione centrale stesso."
Ciò che sorprende anche di LearnedSketch è che, mentre impara a contare gli oggetti, la struttura che apprende può essere generalizzata anche a elementi invisibili. Per esempio, prevedere quali connessioni Internet hanno il maggior traffico, il modello impara a raggruppare diverse connessioni in base al prefisso del loro IP di destinazione. Questo perché i luoghi che generano un grande traffico, come le grandi aziende e le università, tendono a condividere un particolare prefisso.
"Combiniamo il modello con algoritmi classici in modo che il nostro algoritmo erediti le garanzie nel caso peggiore dagli algoritmi classici in modo naturale, " dice il dottorando Chen-Yu Hsu, coautore del nuovo articolo. "Questo tipo di risultati mostra che l'apprendimento automatico è un approccio che potrebbe essere utilizzato insieme ai classici paradigmi algoritmici come "divide et impera" e la programmazione dinamica".
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.