• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Visione stereo che utilizza un'architettura informatica ispirata al cervello

    FIGURA 1:Un sistema di visione stereo completamente basato sugli eventi composto da una coppia di Dynamic Vision Sensor (a sinistra) che invia il proprio output a un cluster di processori TrueNorth (a destra). Credito:IBM

    Il gruppo Brain-Inspired Computing presso IBM Research-Almaden presenterà alla Conferenza IEEE 2018 su Computer Vision and Pattern Recognition (CVPR 2018) il nostro documento più recente intitolato "A Low Power, Alta produttività, Sistema stereo completamente basato sugli eventi." Il documento descrive un sistema di visione stereo end-to-end che utilizza esclusivamente il calcolo della rete neurale di picco e può essere eseguito su hardware neuromorfo con un input di picco in streaming live. Ispirato al sistema di visione umana, utilizza un cluster di chip IBM TrueNorth e una coppia di sensori retina digitali (noti anche come Dynamic Vision Sensors, DVS) per estrarre la profondità di oggetti in rapido movimento in una scena. Il nostro sistema cattura scene in 3-D a bassa potenza, bassa latenza e throughput elevato, che ha il potenziale per far progredire la progettazione di sistemi intelligenti.

    Cos'è la visione stereo?

    La visione stereo è la percezione della profondità e della struttura 3D. Quando guardi un oggetto, Per esempio, i tuoi occhi ne producono due immagini disparate perché le loro posizioni sono leggermente diverse. Le disparità tra le due immagini vengono elaborate nel cervello per generare informazioni sulla posizione e la distanza dell'oggetto. Il nostro sistema replica questa capacità per i computer. Vengono confrontate le posizioni relative di un oggetto nelle immagini dei due sensori, e la posizione dell'oggetto nello spazio 3D viene calcolata tramite la triangolazione di quei dati.

    I sistemi di visione stereo sono utilizzati in sistemi intelligenti per l'automazione industriale (completando attività come il prelievo di contenitori, localizzazione di oggetti 3D, misurazione del volume e delle parti automobilistiche), guida autonoma, navigazione robotica mobile, sorveglianza, realtà aumentata, e altri scopi.

    Tecnologia neuromorfa

    Il nostro sistema di visione stereo è unico perché è implementato completamente su hardware digitale basato su eventi (processori neurosinaptici TrueNorth), utilizzando un modello di calcolo non von Neumann completamente basato su grafi, senza cornici, matrici, o qualsiasi altra struttura di dati comune. Questa è la prima volta che una pipeline stereo in tempo reale end-to-end viene implementata completamente su hardware basato su eventi collegato a un sensore di visione. Il nostro lavoro dimostra come un insieme diversificato di subroutine comuni necessarie per la visione stereo (rettifica, corrispondenza stereo spazio-temporale multiscala, il vincitore prende tutto, e regolarizzazione delle disparità) può essere implementato in modo efficiente su una rete neurale con picchi. Questa architettura utilizza molta meno energia rispetto ai sistemi convenzionali, che potrebbe avvantaggiare la progettazione di sistemi mobili autonomi.

    Per di più, invece delle videocamere convenzionali, che catturano una scena come una serie di fotogrammi, usiamo un paio di videocamere DVS, che rispondono solo ai cambiamenti della scena. Ciò si traduce in meno dati, minor consumo di energia, alta velocità, bassa latenza, e buona gamma dinamica, tutti elementi fondamentali anche per la progettazione di sistemi in tempo reale.

    Sia i processori che i sensori imitano l'attività neurale umana rappresentando i dati come eventi asincroni, proprio come i picchi di neuroni nel cervello. Il nostro sistema si basa sul primo lavoro influente di Misha Mahowald nella progettazione di sistemi neuromorfici. Il gruppo Brain-Inspired Computing aveva precedentemente progettato un sistema di riconoscimento dei gesti basato su eventi utilizzando una tecnologia simile.

    Il nostro sistema stereo end-to-end collega una coppia di videocamere per eventi DVS (modelli inLabs DAVIS240C) tramite USB a un laptop, che distribuisce il calcolo via ethernet a un cluster di nove processori TrueNorth. Ciascun processore TrueNorth è responsabile dei calcoli della disparità stereo su un sottoinsieme dell'input. In altre parole, questo è un approccio scale-out al calcolo dello stereo, poiché il sistema consente, in linea di principio, l'aggiunta di molti più processori TrueNorth per elaborare input più grandi.

    FIGURA 2:Uscita da una fotocamera convenzionale basata su frame (a sinistra) rispetto ai sensori di visione dinamica (a destra) per una ventola rotante. I sensori di visione dinamica producono bordi più nitidi per oggetti in rapido movimento. Credito:IBM Blog Research

    Le telecamere DAVIS forniscono due jack audio da 3,5 mm, consentendo la sincronizzazione degli eventi prodotti dai due sensori. Questo è fondamentale per la progettazione del sistema. Le uscite di disparità dei chip TrueNorth vengono quindi inviate al laptop, che converte i valori di disparità in coordinate 3D effettive. Un visualizzatore basato su OpenGL in esecuzione sul laptop consente all'utente di visualizzare la scena ricostruita da qualsiasi punto di vista. La versione live-feed del sistema in esecuzione su nove chip TrueNorth è in grado di calcolare 400 mappe di disparità al secondo con una latenza fino a 11 ms e un miglioramento di circa 200 volte in termini di potenza per pixel per mappa di disparità rispetto al più vicino stato di -l'arte. Per di più, la possibilità di aumentarlo fino a 2, 000 disparità al secondo (soggetti a determinati compromessi) sono discussi nel documento.

    FIGURA 3:Ricostruzione della profondità per una ventola rotante dalla vista della telecamera (in alto) e da una vista obliqua (in basso). Credito:IBM




    © Scienza https://it.scienceaq.com