Credito:CC0 Dominio Pubblico
I ricercatori della North Carolina State University hanno sviluppato un nuovo framework per costruire reti neurali profonde tramite generatori di rete guidati dalla grammatica. Nelle prove sperimentali, le nuove reti, chiamate AOGNets, hanno superato le attuali strutture all'avanguardia, compresi i diffusi sistemi ResNet e DenseNet, nei compiti di riconoscimento visivo.
"Gli AOGNet hanno una precisione di previsione migliore di qualsiasi altra rete con cui li abbiamo confrontati, "dice Tianfu Wu, un assistente professore di ingegneria elettrica e informatica presso NC State e corrispondente autore di un documento sul lavoro. "Gli AOGNet sono anche più interpretabili, il che significa che gli utenti possono vedere come il sistema raggiunge le sue conclusioni."
Il nuovo framework utilizza un approccio grammaticale compositivo all'architettura di sistema che si basa sulle migliori pratiche dei precedenti sistemi di rete per estrarre in modo più efficace informazioni utili dai dati grezzi.
"Abbiamo scoperto che la grammatica gerarchica e compositiva ci ha dato un semplice, modo elegante per unificare gli approcci adottati dalle precedenti architetture di sistema, e per quanto ne sappiamo, è il primo lavoro che fa uso della grammatica per la generazione di reti, " dice Wu.
Per testare il loro nuovo framework, i ricercatori hanno sviluppato AOGNets e li hanno testati rispetto a tre benchmark di classificazione delle immagini:CIFAR-10, CIFAR-100 e ImageNet-1K.
"AOGNets ha ottenuto prestazioni significativamente migliori rispetto a tutte le reti all'avanguardia in un confronto equo, compresi ResNets, DenseNets, ResNeXts e DualPathNets, " Wu dice. "AOGNets ha anche ottenuto il miglior punteggio di interpretabilità del modello utilizzando la metrica di dissezione della rete in ImageNet. Gli AOGNet mostrano inoltre un grande potenziale nella difesa contraddittoria e nell'implementazione indipendente dalla piattaforma (mobile vs cloud)."
I ricercatori hanno anche testato le prestazioni di AOGNets nel rilevamento degli oggetti e nella segmentazione semantica delle istanze, sul benchmark Microsoft COCO, utilizzando il sistema Vanilla Mask R-CNN.
"AOGNets ha ottenuto risultati migliori rispetto ai backbone ResNet e ResNeXt con modelli di dimensioni inferiori e tempi di inferenza simili o leggermente migliori, " Wu dice. "I risultati mostrano l'efficacia di AOGNets nell'apprendere funzioni migliori nel rilevamento degli oggetti e nelle attività di segmentazione.
Questi test sono rilevanti perché la classificazione delle immagini è uno dei compiti di base fondamentali nel riconoscimento visivo, e ImageNet è il benchmark standard di classificazione su larga scala. Allo stesso modo, il rilevamento e la segmentazione degli oggetti sono due attività fondamentali di visione di alto livello, e MS-COCO è uno dei benchmark più utilizzati.
"Per valutare nuove architetture di rete per il deep learning nel riconoscimento visivo, sono i banchi di prova d'oro, " Wu afferma. "Gli AOGNet sono sviluppati in base a un framework grammaticale di principio e ottengono miglioramenti significativi sia in ImageNet che in MS-COCO, mostrando così impatti potenzialmente ampi e profondi per l'apprendimento della rappresentazione in numerose applicazioni pratiche.
"Siamo entusiasti del framework AOGNet guidato dalla grammatica, e stanno esplorando le sue prestazioni in altre applicazioni di deep learning, come una profonda comprensione del linguaggio naturale, apprendimento generativo profondo e apprendimento per rinforzo profondo, " dice Wu.
La carta, "AOGNets:architetture grammaticali compositive per l'apprendimento profondo, " sarà presentato alla IEEE Computer Vision and Pattern Recognition Conference, che si terrà dal 16 al 20 giugno a Long Beach, California Il primo autore dell'articolo è Xilai Li, un dottorato di ricerca studente presso NC State. Il documento è stato co-autore di Xi Song, un ricercatore indipendente.