Credito:Pixabay/CC0 di dominio pubblico
L'addestramento di un modello di apprendimento automatico per eseguire efficacemente un'attività, come la classificazione delle immagini, implica la visualizzazione del modello di migliaia, milioni o addirittura miliardi di immagini di esempio. La raccolta di set di dati così enormi può essere particolarmente difficile quando la privacy è un problema, come con le immagini mediche. I ricercatori del MIT e della startup nata dal MIT DynamoFL hanno ora adottato una soluzione popolare a questo problema, nota come apprendimento federato, e l'hanno resa più veloce e precisa.
L'apprendimento federato è un metodo collaborativo per addestrare un modello di apprendimento automatico che mantiene privati i dati sensibili degli utenti. Centinaia o migliaia di utenti addestrano ciascuno il proprio modello utilizzando i propri dati sul proprio dispositivo. Quindi gli utenti trasferiscono i loro modelli a un server centrale, che li combina per creare un modello migliore che rimanda a tutti gli utenti.
Una raccolta di ospedali in tutto il mondo, ad esempio, potrebbe utilizzare questo metodo per addestrare un modello di apprendimento automatico che identifica i tumori cerebrali nelle immagini mediche, mantenendo i dati dei pazienti al sicuro sui loro server locali.
Ma l'apprendimento federato presenta alcuni inconvenienti. Il trasferimento di un grande modello di apprendimento automatico da e verso un server centrale comporta lo spostamento di molti dati, con costi di comunicazione elevati, soprattutto perché il modello deve essere inviato avanti e indietro decine o addirittura centinaia di volte. Inoltre, ogni utente raccoglie i propri dati, quindi tali dati non seguono necessariamente gli stessi schemi statistici, il che ostacola le prestazioni del modello combinato. E quel modello combinato è realizzato prendendo una media, non è personalizzato per ogni utente.
I ricercatori hanno sviluppato una tecnica in grado di affrontare contemporaneamente questi tre problemi di apprendimento federato. Il loro metodo aumenta la precisione del modello di apprendimento automatico combinato riducendone significativamente le dimensioni, il che velocizza la comunicazione tra gli utenti e il server centrale. Garantisce inoltre che ogni utente riceva un modello più personalizzato per il proprio ambiente, migliorando le prestazioni.
I ricercatori sono stati in grado di ridurre le dimensioni del modello di quasi un ordine di grandezza rispetto ad altre tecniche, il che ha portato a costi di comunicazione da quattro a sei volte inferiori per i singoli utenti. La loro tecnica è stata anche in grado di aumentare la precisione complessiva del modello di circa il 10 percento.
"Molti articoli hanno affrontato uno dei problemi dell'apprendimento federato, ma la sfida era mettere insieme tutto questo. Gli algoritmi che si concentrano solo sulla personalizzazione o sull'efficienza della comunicazione non forniscono una soluzione sufficientemente buona. Volevamo essere sicuri di sono stati in grado di ottimizzare per tutto, quindi questa tecnica potrebbe essere effettivamente utilizzata nel mondo reale", afferma Vaikkunth Mugunthan Ph.D. '22, autore principale di un articolo che introduce questa tecnica.
Mugunthan ha scritto l'articolo con il suo consulente, l'autore senior Lalana Kagal, uno dei principali ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL). Il lavoro sarà presentato alla Conferenza Europea sulla Computer Vision.
Ridurre un modello a misura
Il sistema sviluppato dai ricercatori, chiamato FedLTN, si basa su un'idea nell'apprendimento automatico nota come ipotesi del biglietto della lotteria. Questa ipotesi afferma che all'interno di modelli di reti neurali molto grandi esistono sottoreti molto più piccole che possono ottenere le stesse prestazioni. Trovare una di queste sottoreti è come trovare un biglietto vincente della lotteria. (LTN sta per "rete di biglietti della lotteria.")
Le reti neurali, vagamente basate sul cervello umano, sono modelli di apprendimento automatico che imparano a risolvere problemi utilizzando strati interconnessi di nodi o neuroni.
Trovare una rete di biglietti della lotteria vincente è più complicato di un semplice gratta e vinci. I ricercatori devono utilizzare un processo chiamato potatura iterativa. Se la precisione del modello è superiore a una soglia impostata, rimuovono i nodi e le connessioni tra di loro (proprio come potare i rami di un cespuglio) e quindi testano la rete neurale più snella per vedere se la precisione rimane al di sopra della soglia.
Altri metodi hanno utilizzato questa tecnica di potatura per l'apprendimento federato per creare modelli di apprendimento automatico più piccoli che potrebbero essere trasferiti in modo più efficiente. Ma mentre questi metodi possono accelerare le cose, le prestazioni del modello ne risentono.
Mugunthan e Kagal hanno applicato alcune nuove tecniche per accelerare il processo di potatura rendendo i nuovi modelli più piccoli più accurati e personalizzati per ogni utente.
Hanno accelerato la potatura evitando un passaggio in cui le parti rimanenti della rete neurale potata vengono "riavvolte" ai loro valori originali. Hanno anche addestrato il modello prima di potarlo, il che lo rende più accurato in modo che possa essere potato a una velocità maggiore, spiega Mugunthan.
Per rendere ogni modello più personalizzato per l'ambiente dell'utente, sono stati attenti a non eliminare i livelli nella rete che acquisiscono importanti informazioni statistiche sui dati specifici di quell'utente. Inoltre, quando i modelli sono stati combinati tutti, hanno utilizzato le informazioni archiviate nel server centrale in modo che non partisse da zero per ogni round di comunicazione.
Hanno anche sviluppato una tecnica per ridurre il numero di cicli di comunicazione per gli utenti con dispositivi con risorse limitate, come uno smartphone su una rete lenta. Questi utenti iniziano il processo di apprendimento federato con un modello più snello che è già stato ottimizzato da un sottoinsieme di altri utenti.
Vincere alla grande con le reti di biglietti della lotteria
Quando hanno messo alla prova FedLTN nelle simulazioni, ha portato a prestazioni migliori e costi di comunicazione ridotti su tutta la linea. In un esperimento, un approccio di apprendimento federato tradizionale ha prodotto un modello di 45 megabyte, mentre la loro tecnica ha generato un modello con la stessa precisione di soli 5 megabyte. In un altro test, una tecnica all'avanguardia richiedeva 12.000 megabyte di comunicazione tra utenti e server per addestrare un modello, mentre FedLTN richiedeva solo 4.500 megabyte.
Con FedLTN, i clienti con le prestazioni peggiori hanno comunque registrato un aumento delle prestazioni di oltre il 10%. E l'accuratezza complessiva del modello ha battuto l'algoritmo di personalizzazione all'avanguardia di quasi il 10 percento, aggiunge Mugunthan.
Ora che hanno sviluppato e perfezionato FedLTN, Mugunthan sta lavorando per integrare la tecnica in una startup di apprendimento federata che ha recentemente fondato, DynamoFL.
Andando avanti, spera di continuare a migliorare questo metodo. Ad esempio, i ricercatori hanno dimostrato il successo utilizzando set di dati con etichette, ma una sfida maggiore sarebbe applicare le stesse tecniche ai dati senza etichetta, afferma.
Mugunthan spera che questo lavoro ispiri altri ricercatori a ripensare al modo in cui affrontano l'apprendimento federato.
"Questo lavoro mostra l'importanza di pensare a questi problemi da un aspetto olistico, e non solo alle singole metriche che devono essere migliorate. A volte, il miglioramento di una metrica può effettivamente causare un downgrade delle altre metriche. Invece, dovremmo concentrarci su come possiamo migliorare un sacco di cose insieme, il che è davvero importante se deve essere implementato nel mondo reale", afferma. + Esplora ulteriormente
Questa storia è stata ripubblicata per gentile concessione di MIT News (web.mit.edu/newsoffice/), un popolare sito che copre notizie sulla ricerca, l'innovazione e l'insegnamento del MIT.