La rete di query di generazione consente al computer di creare un modello 3D multivista da fotografie 2D

Un'interpretazione artistica della carta di S.M. Ali Eslami et al., intitolato "Rappresentazione e rendering della scena neurale". Credito:DeepMind

Un team di ricercatori che lavorano con la divisione DeepMind di Google a Londra ha sviluppato ciò che descrivono come una Generation Query Network (GQN):consente a un computer di creare un modello 3D di una scena da fotografie 2D che possono essere visualizzate da diversi angoli. Nel loro articolo pubblicato sulla rivista Scienza , il team descrive il nuovo tipo di sistema di rete neurale e cosa rappresenta. Offrono anche una visione più personale del loro progetto in un post sul loro sito web. Matthias Zwicker, con l'Università del Maryland offre una prospettiva sul lavoro svolto dal team nello stesso numero della rivista.

Nell'informatica, i grandi salti nell'ingegneria dei sistemi possono sembrare piccoli a causa dell'apparente semplicità dei risultati:è solo quando qualcuno applica i risultati che il grande salto viene veramente riconosciuto. Questo era il caso, Per esempio, quando sono comparsi i primi sistemi in grado di ascoltare ciò che una persona dice e trarne significato. In questa nuova impresa, il team di DeepMind potrebbe aver fatto un salto simile.

Nelle applicazioni informatiche tradizionali, comprese le reti di apprendimento profondo, un computer deve essere imbottigliato di dati per potersi comportare come se avesse imparato qualcosa. Non è il caso di GQN, che apprende puramente dall'osservazione, come i bambini umani. Il sistema può osservare una scena del mondo reale, come blocchi seduti su un tavolo, e poi ricrearne un modello in grado di mostrare la scena da altre angolazioni. A prima vista, come nota Zwicker, questo potrebbe non sembrare così innovativo. È solo quando si considera ciò che il sistema deve fare per trovare quei nuovi punti di vista che il vero potere del sistema diventa chiaro. Deve guardare la scena e dedurre le caratteristiche degli oggetti occlusi che non possono essere osservati utilizzando solo le informazioni 2D fornite dalle telecamere. Non c'è radar o ecoscandaglio, o immagini di come dovrebbero apparire i blocchi archiviati nelle sue banche dati. Tutto ciò con cui deve lavorare sono le poche fotografie che scatta.

Compiendo questo, spiega la squadra prevede l'utilizzo di due reti neurali, uno per analizzare la scena, l'altro per utilizzare i dati risultanti per creare un modello 3D di esso che può essere visualizzato da angolazioni non mostrate nelle fotografie. C'è ancora molto lavoro da fare, Certo, più ovviamente, determinare se può essere ampliato a oggetti più complessi, ma nella sua forma primitiva, rappresenta chiaramente un nuovo modo per consentire ai computer di apprendere.

L'agente GQN "immagina" nuovi punti di vista in stanze con più oggetti. Credito:DeepMind

Agente GQN che opera in ambienti labirintici parzialmente osservati. Credito:DeepMind

Agente GQN che esegue l'attività di rotazione degli oggetti di Shepard Metzler. Credito:DeepMind

Uber Eats è diventata l'app per la consegna di cibo più utilizzata in Texas

I ricercatori studiano la potenziale minaccia alla privacy del parlato tramite i sensori di movimento degli smartphone

Elettronica