Credito:Linköping Universitet
Hannes Ovrén mostra nella sua tesi di dottorato in computer vision all'Università di Linköping come è possibile creare modelli 3D da filmati video registrati con semplici telecamere montate sul corpo o su robot. La ricerca apre nuove possibilità sia per i robot che per gli umani, non da ultimo per la polizia ei servizi di soccorso.
La ricerca sulla visione artificiale ha un significato importante per il futuro dell'intelligenza artificiale:i sistemi autonomi si basano sulla capacità di robot e altri sistemi di orientarsi e scoprire oggetti e persone.
Il contributo di Hannes Ovrén mostra come creare un modello 3D dell'ambiente circostante, basato su filmati video ripresi con una fotocamera montata sul corpo poco costosa. Il modello riproduce fedelmente la scala, permettendo di effettuare misurazioni.
"Attualmente, vedere i robot muoversi con molta attenzione, per tenere traccia di dove si trovano. In alcuni casi, potrebbero anche doversi fermare per determinare la loro posizione. Questa tecnologia consente ai robot di muoversi più liberamente e di costruire un modello dell'ambiente circostante durante il movimento, "dice Per-Erik Forssen, docente presso il Laboratorio di Visione artificiale, e il supervisore principale di Hannes Ovrén.
Altri campi di utilizzo possono essere trovati in, Per esempio, lavoro di polizia o di soccorso, dove il personale con una telecamera montata sul corpo può ricreare una scena del crimine o il luogo di un incidente in tre dimensioni, con persone e oggetti nel luogo esatto in cui si trovavano nel momento in cui è stata scattata la fotografia.
Il problema con la creazione di modelli 3D da semplici videocamere fino ad ora è stato che la videocamera deve essere fissa, preferibilmente montato su treppiede. Se la telecamera si muove, gli oggetti dritti possono sembrare curvi nell'immagine, o sembrano essere a diverse altezze. Gli oggetti oscillano, e si ottiene un'immagine distorta. Questo perché le fotocamere economiche hanno un tipo di otturatore noto come otturatore "rolling", che costruisce l'immagine in pixel riga per riga. Gli smartphone hanno questo tipo di fotocamera.
"Ogni cornice dell'immagine contiene movimento, ma è possibile migliorare significativamente l'immagine modellando il modo in cui la telecamera si è mossa e compensando il movimento, "dice Hannes Ovrén.
Per evitare che i calcoli diventino troppo impegnativi, il suo metodo crea una curva, noto come "spline, " che descrive come si è mossa la telecamera. Questa curva è costruita da nodi spline, dove ogni nodo controlla l'aspetto della curva in un determinato momento. Se i nodi sono più fitti, il metodo può trattare movimenti più complessi, ma i calcoli si fanno più impegnativi.
Hannes Ovrén mostra nella tesi che è possibile utilizzare un numero significativamente inferiore di nodi quando vengono modellati gli errori che si verificano a causa del raddrizzamento e dello smussamento della curva. Per evitare che gli errori diventino troppo grandi, il metodo utilizza anche un'unità di misura inerziale collegata alla fotocamera. Questo è un sensore piccolo ed economico che tiene traccia dell'accelerazione, velocità angolare e orientamento rispetto al suolo.
Creazione di un modello 3D. Attestazione:Hannes Ovrén
"Le misurazioni del sensore sono incluse nei calcoli e possiamo in questo modo aumentare la distanza tra i nodi, riducendo la dimensione dei calcoli, "dice Hannes Ovrén.
La semplificazione significa che il movimento della telecamera e la curva spline non sono esattamente gli stessi. È possibile, però, determinare come la differenza di percorso influisca sull'entità degli errori di misurazione, e in questo modo aumentare l'affidabilità del modello 3D e le distanze in esso.