I ricercatori del MIT hanno dimostrato l'uso di un modello di apprendimento automatico generativo per creare dati sintetici, basati su dati reali, che possono essere utilizzati per addestrare un altro modello per la classificazione delle immagini. Questa immagine mostra esempi dei metodi di trasformazione del modello generativo. Credito:Massachusetts Institute of Technology
Sono necessarie enormi quantità di dati per addestrare i modelli di apprendimento automatico per eseguire attività di classificazione delle immagini, come l'identificazione dei danni nelle foto satellitari a seguito di un disastro naturale. Tuttavia, questi dati non sono sempre facili da trovare. La generazione di set di dati può costare milioni di dollari, se in primo luogo esistono dati utilizzabili, e anche i migliori set di dati spesso contengono pregiudizi che influiscono negativamente sulle prestazioni di un modello.
Per aggirare alcuni dei problemi presentati dai set di dati, i ricercatori del MIT hanno sviluppato un metodo per addestrare un modello di apprendimento automatico che, anziché utilizzare un set di dati, utilizza un tipo speciale di modello di apprendimento automatico per generare dati sintetici estremamente realistici che possono addestrare un altro modello per compiti di visione a valle.
I loro risultati mostrano che un modello di apprendimento della rappresentazione contrastiva addestrato utilizzando solo questi dati sintetici è in grado di apprendere rappresentazioni visive che rivaleggiano o addirittura superano quelle apprese dai dati reali.
Questo speciale modello di apprendimento automatico, noto come modello generativo, richiede molta meno memoria da archiviare o condividere rispetto a un set di dati. L'uso di dati sintetici ha anche il potenziale per aggirare alcune preoccupazioni sulla privacy e sui diritti di utilizzo che limitano il modo in cui alcuni dati reali possono essere distribuiti. Un modello generativo potrebbe anche essere modificato per rimuovere determinati attributi, come razza o sesso, che potrebbero affrontare alcuni pregiudizi che esistono nei set di dati tradizionali.
"Sapevamo che questo metodo alla fine avrebbe dovuto funzionare; dovevamo solo aspettare che questi modelli generativi migliorassero sempre di più. Ma siamo stati particolarmente contenti quando abbiamo dimostrato che questo metodo a volte funziona anche meglio di quello reale", afferma Ali Jahanian, ricercatore presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) e autore principale dell'articolo.
Jahanian ha scritto il documento con gli studenti laureati CSAIL Xavier Puig e Yonglong Tian e l'autore senior Phillip Isola, un assistente professore presso il Dipartimento di ingegneria elettrica e informatica. La ricerca sarà presentata alla Conferenza internazionale sulle rappresentazioni dell'apprendimento.
Generazione di dati sintetici
Una volta che un modello generativo è stato addestrato su dati reali, può generare dati sintetici così realistici da essere quasi indistinguibili dalla realtà. Il processo di addestramento consiste nel mostrare al modello generativo milioni di immagini che contengono oggetti in una classe particolare (come automobili o gatti), quindi apprende che aspetto ha un'auto o un gatto in modo da poter generare oggetti simili.
In sostanza, premendo un interruttore, i ricercatori possono utilizzare un modello generativo preaddestrato per produrre un flusso costante di immagini uniche e realistiche basate su quelle nel set di dati di addestramento del modello, afferma Jahanian.
Ma i modelli generativi sono ancora più utili perché imparano a trasformare i dati sottostanti su cui vengono addestrati, dice. Se il modello viene addestrato su immagini di auto, può "immaginare" come sarebbe un'auto in diverse situazioni (situazioni che non ha visto durante l'allenamento) e quindi produrre immagini che mostrano l'auto in pose, colori o dimensioni uniche.
Avere più visualizzazioni della stessa immagine è importante per una tecnica chiamata apprendimento contrastante, in cui a un modello di apprendimento automatico vengono mostrate molte immagini senza etichetta per apprendere quali coppie sono simili o diverse.
I ricercatori hanno collegato un modello generativo preaddestrato a un modello di apprendimento contrastante in un modo che ha consentito ai due modelli di lavorare insieme automaticamente. Lo studente contrastante potrebbe dire al modello generativo di produrre viste diverse di un oggetto e quindi imparare a identificare quell'oggetto da più angolazioni, spiega Jahanian.
"Era come collegare due elementi costitutivi. Poiché il modello generativo può darci visioni diverse della stessa cosa, può aiutare il metodo contrastivo ad apprendere rappresentazioni migliori", afferma.
Anche meglio di quello reale
I ricercatori hanno confrontato il loro metodo con molti altri modelli di classificazione delle immagini che sono stati addestrati utilizzando dati reali e hanno scoperto che il loro metodo ha funzionato bene, e talvolta meglio, rispetto agli altri modelli.
Un vantaggio dell'utilizzo di un modello generativo è che può, in teoria, creare un numero infinito di campioni. Quindi, i ricercatori hanno anche studiato come il numero di campioni ha influenzato le prestazioni del modello. Hanno scoperto che, in alcuni casi, la generazione di un numero maggiore di campioni unici portava a ulteriori miglioramenti.
"La cosa interessante di questi modelli generativi è che qualcun altro li ha addestrati per te. Puoi trovarli nei repository online, così tutti possono usarli. E non è necessario intervenire nel modello per ottenere buone rappresentazioni", afferma Jahanian .
Ma avverte che ci sono alcune limitazioni all'uso dei modelli generativi. In alcuni casi, questi modelli possono rivelare dati di origine, che possono comportare rischi per la privacy, e potrebbero amplificare i pregiudizi nei set di dati su cui vengono addestrati se non vengono adeguatamente controllati.
Lui ei suoi collaboratori hanno in programma di affrontare queste limitazioni nel lavoro futuro. Un'altra area che vogliono esplorare è l'utilizzo di questa tecnica per generare casi d'angolo che potrebbero migliorare i modelli di apprendimento automatico. I casi d'angolo spesso non possono essere appresi dai dati reali. Ad esempio, se i ricercatori stanno addestrando un modello di visione artificiale per un'auto a guida autonoma, i dati reali non conterrebbero esempi di un cane e il suo proprietario che corrono lungo un'autostrada, quindi il modello non imparerebbe mai cosa fare in questa situazione. La generazione sintetica dei dati del caso d'angolo potrebbe migliorare le prestazioni dei modelli di apprendimento automatico in alcune situazioni ad alto rischio.
I ricercatori vogliono anche continuare a migliorare i modelli generativi in modo da poter comporre immagini ancora più sofisticate, dice.