• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Ripristinare l'equilibrio nei set di dati di machine learning

    Cinque campioni rappresentativi per ogni classe (riga) nel set di dati CIFAR-10. Per ogni classe, questi campioni sono ottenuti con modelli generativi addestrati dopo aver eliminato dal set di addestramento il 40% delle immagini di quella specifica classe. Credito:IBM

    Se vuoi insegnare a un bambino che aspetto ha un elefante, hai un numero infinito di opzioni. Scatta una foto dal National Geographic, un peluche di Dumbo, o un portachiavi a forma di elefante; mostralo al bambino; e la prossima volta che vedrà un oggetto che sembra un elefante, probabilmente indicherà la parola e dirà la parola.

    Insegnare all'intelligenza artificiale che aspetto ha un elefante è un po' diverso. Per addestrare un algoritmo di apprendimento automatico, probabilmente avrai bisogno di migliaia di immagini di elefanti usando diverse prospettive, come la testa, coda, e profilo. Ma allora, anche dopo aver ingerito migliaia di foto, se colleghi il tuo algoritmo a una fotocamera e gli mostri un portachiavi con un elefante rosa, probabilmente non lo riconoscerà come un elefante.

    Questa è una forma di distorsione dei dati, e spesso influisce negativamente sull'accuratezza dei classificatori di deep learning. Per correggere questo pregiudizio, usando lo stesso esempio, avremmo bisogno di almeno 50-100 immagini di elefanti rosa, il che potrebbe essere problematico poiché gli elefanti rosa sono "rari".

    Questa è una sfida nota nelle comunità di apprendimento automatico, e se i suoi elefanti rosa o segnali stradali, piccoli set di dati presentano grandi sfide per gli scienziati dell'IA.

    Ristabilire l'equilibrio per l'allenamento AI

    Dall'inizio di quest'anno, io e i miei colleghi di IBM Research a Zurigo stiamo offrendo una soluzione. Si chiama BAGAN, o bilanciare reti generative avversarie, e può generare immagini completamente nuove, cioè di elefanti rosa, per ripristinare l'equilibrio per l'allenamento dell'IA.

    Cinque campioni rappresentativi generati per le tre classi di maggioranza più rappresentate nel dataset GT-SRB. Credito:IBM

    Vedere per credere

    Nel documento riportiamo l'utilizzo di BAGAN sul benchmark tedesco di riconoscimento dei segnali stradali, così come su MNIST e CIFAR-10, e se confrontato con il GAN ​​allo stato dell'arte, la metodologia li supera tutti in termini di varietà e qualità delle immagini generate quando il set di dati di addestramento è sbilanciato. A sua volta, questo porta a una maggiore precisione dei classificatori finali addestrati sul set di dati aumentato.

    Cinque campioni rappresentativi generati per le tre classi di minoranza meno rappresentate nel set di dati GT-SRB. Credito:IBM

    Questa storia è stata ripubblicata per gentile concessione di IBM Research. Leggi la storia originale qui.




    © Scienza https://it.scienceaq.com