• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Addestramento più intelligente delle reti neurali

    (L-R) Il professore assistente del MIT Michael Carbin e lo studente di dottorato Jonathan Frankle. Credito:Jason Dorfman/MIT CSAIL

    In questi giorni, quasi tutti i prodotti basati sull'intelligenza artificiale nelle nostre vite si basano su "reti neurali profonde" che imparano automaticamente a elaborare i dati etichettati.

    Per la maggior parte delle organizzazioni e degli individui, anche se, l'apprendimento profondo è difficile da penetrare. Per imparare bene, le reti neurali normalmente devono essere piuttosto grandi e necessitano di enormi set di dati. Questo processo di formazione di solito richiede più giorni di formazione e costose unità di elaborazione grafica (GPU) e talvolta anche hardware progettato su misura.

    Ma cosa succede se in realtà non devono essere così grandi, Dopotutto?

    In un nuovo documento, i ricercatori del Computer Science and Artificial Intelligence Lab (CSAIL) del MIT hanno dimostrato che le reti neurali contengono sottoreti che sono fino a un decimo delle dimensioni ma possono essere addestrate per fare previsioni altrettanto accurate e talvolta possono imparare a farlo anche più velocemente del originali.

    L'approccio del team non è particolarmente efficiente ora:devono addestrare e "sfrondare" l'intera rete diverse volte prima di trovare la sottorete di successo. Però, Il professore assistente del MIT Michael Carbin afferma che i risultati del suo team suggeriscono che, se possiamo determinare con precisione quale parte della rete originale è rilevante per la previsione finale, gli scienziati potrebbero un giorno essere in grado di saltare del tutto questo costoso processo. Tale rivelazione ha il potenziale per risparmiare ore di lavoro e rendere più facile la creazione di modelli significativi da parte dei singoli programmatori, e non solo grandi aziende tecnologiche.

    "Se la rete iniziale non doveva essere così grande in primo luogo, perché non puoi semplicemente crearne uno della giusta dimensione all'inizio?" dice il dottorando Jonathan Frankle, che ha presentato il suo nuovo articolo scritto insieme a Carbin alla Conferenza internazionale sulle rappresentazioni dell'apprendimento (ICLR) a New Orleans. Il progetto è stato nominato uno dei due migliori documenti dell'ICLR, su circa 1, 600 proposte.

    Il team paragona i tradizionali metodi di deep learning a una lotteria. Allenare grandi reti neurali è un po' come cercare di garantire che vincerai alla lotteria acquistando alla cieca ogni possibile biglietto. Ma cosa accadrebbe se potessimo selezionare i numeri vincenti proprio all'inizio?

    "Con una rete neurale tradizionale inizializzi in modo casuale questa grande struttura, e dopo averlo addestrato su un'enorme quantità di dati funziona magicamente, " dice Carbin. "Questa grande struttura è come comprare un grosso sacco di biglietti, anche se c'è solo un piccolo numero di biglietti che ti renderanno davvero ricco. La scienza rimanente è capire come identificare i biglietti vincenti senza vedere prima i numeri vincenti".

    Il lavoro del team può anche avere implicazioni per il cosiddetto "apprendimento del trasferimento, " dove le reti addestrate per un compito come il riconoscimento delle immagini sono costruite per poi aiutare con un compito completamente diverso.

    L'apprendimento di trasferimento tradizionale comporta l'addestramento di una rete e quindi l'aggiunta di un altro livello in cima che è addestrato per un'altra attività. In molti casi, una rete addestrata per uno scopo è in grado di estrarre quindi una sorta di conoscenza generale che può essere successivamente utilizzata per un altro scopo.

    Per tutto il clamore ricevuto dalle reti neurali, spesso non si parla molto di quanto sia difficile addestrarli. Poiché possono essere proibitivi da addestrare, gli scienziati dei dati devono fare molte concessioni, soppesando una serie di compromessi rispetto alle dimensioni del modello, il tempo necessario per allenarsi, e la sua esecuzione finale.

    Per testare la loro cosiddetta "ipotesi del biglietto della lotteria" e dimostrare l'esistenza di queste sottoreti più piccole, la squadra aveva bisogno di un modo per trovarli. Hanno iniziato utilizzando un approccio comune per eliminare le connessioni non necessarie dalle reti addestrate per adattarle a dispositivi a bassa potenza come gli smartphone:hanno "potato" le connessioni con i "pesi" più bassi (quanto la rete dà la priorità a quella connessione).

    La loro innovazione chiave è stata l'idea che le connessioni che sono state tagliate dopo che la rete è stata addestrata potrebbero non essere mai state necessarie. Per verificare questa ipotesi, hanno provato ad addestrare di nuovo la stessa identica rete, ma senza le connessioni potate. È importante sottolineare che "ripristinano" ogni connessione al peso assegnato all'inizio dell'allenamento. Questi pesi iniziali sono fondamentali per aiutare un biglietto della lotteria a vincere:senza di essi, le reti tagliate non imparerebbero. Potando sempre più connessioni, hanno determinato quanto potrebbe essere rimosso senza danneggiare la capacità di apprendimento della rete.

    Per convalidare questa ipotesi, hanno ripetuto questo processo decine di migliaia di volte su molte reti diverse in un'ampia gamma di condizioni.

    "È stato sorprendente vedere che il ripristino di una rete ben funzionante avrebbe spesso portato a qualcosa di meglio, " dice Carbin. "Questo suggerisce che qualunque cosa stavamo facendo la prima volta non era esattamente ottimale, and that there's room for improving how these models learn to improve themselves."

    Come passo successivo, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.

    "Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."

    Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca del MIT, innovazione e didattica.




    © Scienza https://it.scienceaq.com