Visualizzazione delle distribuzioni di rotazione. Le linee rappresentano la probabilità di rotazioni superiori a una soglia. La lunghezza di ogni riga è proporzionale alla probabilità di quel punto di vista. Come si può vedere, PoseRBPF rappresenta naturalmente incertezze dovute a vari tipi di simmetrie, compresa la simmetria rotazionale della ciotola, simmetria speculare del mattone di schiuma, e discrete simmetrie rotazionali degli oggetti T-LESS a destra. Credito:Deng et al.
Ricercatori di NVIDIA, Università di Washington, Università di Stanford, e l'Università dell'Illinois Urbana-Champaign hanno recentemente sviluppato un filtro antiparticolato Rao-Blackwellized per il tracciamento della posa in 6D, chiamato PoseRBPF. L'approccio può stimare efficacemente la traslazione 3D di un oggetto e la sua distribuzione completa durante la rotazione 3D. Il documento che descrive questo filtro, pre-pubblicato su arXiv, sarà presentato alla prossima Robotics Science and Systems Conference a Friburgo, Germania.
Il monitoraggio di pose 6-D di oggetti nei video può migliorare le prestazioni dei robot in una varietà di attività, comprese le attività di manipolazione e navigazione. La maggior parte delle tecniche esistenti per la stima della posa dell'oggetto tenta di prevedere una singola stima per la posa 6-D (cioè la traslazione xyz e l'orientamento 3-D) di un oggetto in ogni fotogramma della fotocamera.
Questi metodi presentano una serie di limitazioni e problemi. Ad esempio, non sono in grado di distinguere la posa di oggetti parzialmente o completamente occlusi. Inoltre, ci sono situazioni in cui, per simmetrie, non esiste un'unica risposta corretta per la posa di un oggetto, che complica ulteriormente il compito.
"Si scopre che molti oggetti nei nostri ambienti quotidiani sono simmetrici, come piatti per la cena, ciotole, bottiglie, o cubetti, "Arsalan Mousavian, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Questi oggetti non hanno un orientamento 3D univoco poiché sembrano identici da molti angoli di visualizzazione diversi. Per aggirare questi problemi, abbiamo proposto un metodo per tracciare la distribuzione completa della posa di un oggetto (al contrario della stima della posa singola) nel tempo. Questa distribuzione cattura accuratamente l'incertezza nella posa dell'oggetto, e il monitoraggio nel tempo aiuta a disambiguare la posa dell'oggetto. Per esempio, se un oggetto è visibile ad un certo punto e diventa occluso, il metodo può recuperare la posa seguendola dai fotogrammi precedenti."
PosaRBPF, l'approccio sviluppato da Mousavian e dai suoi colleghi, può tracciare l'intera distribuzione sulla posa 6-D (cioè la traduzione 3-D, orientamento 3D) di un dato oggetto, in relazione a una determinata fotocamera. Le distribuzioni di probabilità nello spazio 6D sono molto complesse, quindi se non vengono misurati correttamente è impossibile aggiornarli in tempo reale. Per garantire l'accuratezza delle distribuzioni tracciate, i ricercatori hanno disaccoppiato le loro stime della traduzione di oggetti 3D e dell'orientamento degli oggetti 3D utilizzando una tecnica chiamata filtraggio delle particelle Rao-Blackwellized.
"Nel filtraggio delle particelle Rao-Blackwellized, le traduzioni degli oggetti sono rappresentate da campioni, o particelle, e l'orientamento è discretizzato in piccoli pezzi di circa 200, 000 possibili orientamenti, " ha spiegato Mousavian. "Abbiamo utilizzato una tecnica di deep learning per pre-calcolare gli incorporamenti che rappresentano l'aspetto che potrebbe avere l'oggetto in tutti questi orientamenti e in condizioni di illuminazione arbitrarie. Sfruttando l'elaborazione della GPU NVIDIA altamente parallelizzata, il nostro approccio può quindi confrontare l'immagine della telecamera corrente con questi incorporamenti pre-calcolati per tutti i possibili orientamenti e aggiornare la distribuzione in tempo reale".
Ad ogni passo, l'approccio ideato dai ricercatori aggiorna l'insieme di particelle campionando dal precedente insieme di particelle, seguendo un modello che prevede come l'oggetto e la telecamera potrebbero spostarsi da un passaggio all'altro. Questo processo consente a PoseRBPF di accumulare informazioni nel tempo, che a sua volta porta a stime di posa più robuste e accurate.
Visualizzazione delle distribuzioni di rotazione. Credito:Deng et al.
Illustrazione del calcolo per la probabilità di rotazione condizionale mediante corrispondenza del vocabolario. Sinistra) Ogni particella ritaglia l'immagine in base alla sua ipotesi di traslazione. La RoI per ogni particella viene ridimensionata e il codice corrispondente viene calcolato utilizzando l'encoder. Destra) La distribuzione di rotazione P(R|Z, T) è calcolato dalla distanza tra il codice per ogni ipotesi e quelli nel vocabolario. Credito:Deng et al.
Per ogni particella, la distribuzione dell'orientamento è stimata condizionata alla stima della traduzione, mentre la stima della traduzione viene valutata con le corrispondenti RoI. Credito:Deng et al.
Panoramica del framework PoseRBPF per il tracciamento della posa di oggetti 6D. Credito:Deng et al.
Visualizzazione delle distribuzioni di rotazione. Le linee rappresentano la probabilità di rotazioni superiori a una soglia. La lunghezza di ogni riga è proporzionale alla probabilità di quel punto di vista. Come si può vedere, PoseRBPF rappresenta naturalmente incertezze dovute a vari tipi di simmetrie, compresa la simmetria rotazionale della ciotola, simmetria speculare del mattone di schiuma, e discrete simmetrie rotazionali degli oggetti T-LESS a destra. Credito:Deng et al.
Condizionando la stima di orientamento sulla traduzione, il sistema di tracciamento proposto da Mousavian e dai suoi colleghi può rappresentare efficacemente complesse distribuzioni di incertezza nello spazio delle pose di oggetti 6D. La loro struttura fornisce anche informazioni sull'incertezza sulla posa di un determinato oggetto, che potrebbe essere particolarmente utile nelle attività di manipolazione dei robot. Inoltre, il sistema è stato addestrato utilizzando dati sintetici e non annotati, quindi può far risparmiare ai ricercatori il tempo e le risorse spese per annotare i dati.
"Il nostro metodo combina la classica struttura di stima bayesiana del filtraggio delle particelle con l'apprendimento profondo, " Ha detto Mousavian. "Riunisce in tal modo tecniche di stima ben consolidate sviluppate negli ultimi decenni e il potere dei recenti approcci di apprendimento profondo. Di conseguenza, PoseRBPF può stimare in modo robusto le pose di oggetti arbitrari, comprese quelle simmetriche."
I ricercatori hanno valutato il loro approccio su due set di dati di stima della posa 6-D:il set di dati video YCB e il set di dati T-LESS. PoseRBPF ha ottenuto risultati all'avanguardia, superando altre tecniche di stima della posa. Nel futuro, il filtro antiparticolato sviluppato da Mousavian e dai suoi colleghi potrebbe migliorare le prestazioni dei robot in una varietà di ambienti, ad esempio migliorando le loro capacità di manipolazione degli oggetti.
"Andando avanti, indagheremo come utilizzare le stime di incertezza fornite da PoseRBPF nel contesto della manipolazione degli oggetti, " ha detto Mousavian. "Un'altra strada per il lavoro futuro è spostare attivamente la telecamera in modo da ridurre l'incertezza nella posa di un oggetto, come guardare un oggetto da un punto di vista diverso per risolvere l'ambiguità."
© 2019 Scienza X Rete