Previsioni di esempio di ColorUNet sul set di convalida, per immagini di input blande. Le immagini di output di ColorUNet sono più colorate delle immagini della verità al suolo (originale). L'esempio in basso è una vecchia fotografia dai toni consumati. Credito:Billaut, De Rochemonteix e Thibault.
Un team di ricercatori della Stanford University ha recentemente sviluppato un metodo di classificazione della CNN per colorare le immagini in scala di grigi. Lo strumento che hanno ideato, chiamato ColorUNet, trae ispirazione da U-Net, una rete completamente convolutiva per la segmentazione delle immagini.
"Come parte della classe Computer Vision di Stanford, abbiamo lavorato a questo progetto per diversi mesi, "Vincent Billaut, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Il nostro obiettivo era riprodurre risultati allo stato dell'arte utilizzando un modello leggero, piuttosto che migliorare i modelli esistenti aumentando le dimensioni del training set o la loro complessità computazionale, un approccio molto comune nei problemi CV. Volevamo che i nostri risultati fossero facili da valutare e visivamente accattivanti, perché oltre ad applicazioni utili e di impatto, Il CV riguarda anche cose interessanti".
Billaut e i suoi colleghi hanno deciso di affrontare il compito di colorare automaticamente le immagini in scala di grigi dall'angolo della classificazione, lavorare con un insieme finito di possibilità di colore. Il loro modello ha seguito una funzione di perdita e previsione, privilegiando le immagini colorate rispetto a quelle realistiche.
"Invece di cercare di prevedere i colori direttamente tramite un'attività di regressione, dividiamo tutti i colori in contenitori, con un compito di classificazione, "Marco Thibault, un altro ricercatore coinvolto nello studio, ha detto a TechXplore. "La formulazione del problema come attività di classificazione ci consente di avere un controllo migliore su quanto vogliamo che appaia colorato il nostro output, mettendo a punto il modo in cui prevediamo un colore dall'output della rete."
L'architettura di ColorUNet. Struttura del ColorUNet. I ricercatori utilizzano 3 tipi di celle:celle DownConv che utilizzano 2 strati convoluzionali sovrapposti per avere un ampio campo percettivo e un maxpooling per eseguire il downsampling dell'immagine, Celle UpConv che utilizzano 1 ConvTranspose Layer per sovracampionare l'immagine e quindi 2 livelli convoluzionali, e una cella di output che è una versione semplificata della cella UpConv. Credito:Billaut, De Rochemonteix e Thibault.
I ricercatori hanno addestrato il loro modello su sottoinsiemi dei set di dati SUN e ImageNet, che contengono immagini di paesaggi. L'architettura di rete neurale che hanno sviluppato ha permesso al loro algoritmo di deep learning di estrarre informazioni sia locali che globali da ogni immagine in scala di grigi.
"L'algoritmo può quindi decidere il colore di una regione in base al suo aspetto, oltre che sul contesto che lo circonda, " disse Thibault. "In generale, è fondamentale che le tecniche di intelligenza artificiale per il processo decisionale nella vita reale sfruttino sia l'identificazione del soggetto precisa a livello locale sia la comprensione del contesto più ampio".
Uno degli obiettivi chiave dello studio era sviluppare un'architettura leggera che fosse scalabile, ma anche eseguiti come modelli all'avanguardia nelle attività di colorazione. Per realizzare questo, i ricercatori hanno limitato il compito alle immagini di paesaggi naturali.
Immagine MRI open-source che potrebbe essere elaborata da ColorUNet in futuro. Credito:Billaut, De Rochemonteix e Thibault.
"Più importante, abbiamo utilizzato un'architettura U-Net per migliorare le prestazioni e ridurre la complessità del modello, "Matteo di Rochemonteix, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "ColorUnet si avvicina allo stato dell'arte delle prestazioni sulla sottoattività selezionata. La sua architettura consente una formazione più rapida e stabile, senza rinunciare alla profondità e alla forza rappresentativa del modello».
Quando valutato su immagini di paesaggi, ColorUNet ha ottenuto risultati molto promettenti, con l'aumento dei dati che migliora significativamente le prestazioni e la robustezza del modello. I ricercatori hanno anche applicato il modello alla colorazione dei video, proponendo un modo per uniformare le previsioni di colore tra i fotogrammi senza dover addestrare una rete ricorrente per input sequenziali.
"Il contributo principale di questa tecnica è la capacità di un algoritmo di capire cosa sta succedendo in un'immagine su scala locale, alimentandolo con l'intero contesto dell'immagine, " ha detto Thibault. "Mentre abbiamo mostrato la sua efficienza nella colorazione delle immagini, stiamo lavorando anche su altre applicazioni, soprattutto in ambito medico. All'interno del Gevaert Lab di Stanford, abbiamo applicato questo metodo al rilevamento del tumore per i pazienti con glioma (cancro al cervello) basato su scansioni MRI. La ricerca in questo campo è fiorente, con sempre più tecniche CV applicate all'imaging medico."
© 2018 Science X Network