Una descrizione semanticamente ricca di una scena della colazione. Credito:Bálint-Benczédi et al.
Negli ultimi dieci anni o giù di lì, i progressi nell'apprendimento automatico hanno consentito lo sviluppo di sistemi sempre più autonomi, compresi i veicoli a guida autonoma, assistenti virtuali e robot mobili. Tra l'altro, i ricercatori che sviluppano sistemi autonomi devono identificare modi per integrare componenti progettati per affrontare compiti secondari diversi e tuttavia complementari.
Ad esempio, un robot che completa attività manuali nella casa di un utente umano dovrebbe essere in grado di percepire gli oggetti nel suo ambiente e allo stesso tempo di recuperare informazioni su questi oggetti che possono essere utilizzate per pianificare i suoi movimenti e azioni. Questo processo, noto anche come paradigma "percezione-cognizione-azione", è di fondamentale importanza, in quanto alla fine consente al robot di elaborare strategie utili e completare le attività in modo efficiente.
Finora, la maggior parte dei metodi per implementare questo paradigma percezione-cognizione-azione nei robot tratta questi tre compiti come moduli quasi completamente indipendenti che agiscono come scatole nere l'uno per l'altro. Un team di ricercatori dell'Università di Brema e dell'Università di Monaco in Germania, però, crede che collegare il sistema di "percezione" di un robot con la sua cognizione (cioè, la sua capacità di "ragionare" o recuperare informazioni sugli oggetti nell'ambiente circostante) potrebbe migliorare significativamente le sue prestazioni complessive.
Con questo in testa, i ricercatori hanno recentemente sviluppato un sistema di percezione cognitiva che potrebbe migliorare le prestazioni dei robot mobili nelle attività di manipolazione quotidiane. Questo sistema, soprannominato ROBOSHERLOCK, raggiunge la percezione tramite l'analisi dei contenuti (CA), una strategia che prevede l'uso di metodi statistici per analizzare grandi quantità di dati.
I dati analizzati da ROBOSHERLOCK sono "non strutturati, " poiché la sua struttura non riflette la semantica ad essa associata, come farebbe in un database o in un foglio di calcolo. Il sistema utilizza quindi una strategia nota come gestione delle informazioni non strutturate (UIM), il che significa essenzialmente che può elaborare grandi quantità di dati non strutturati (ad es. documenti di testo, file audio, immagini, ecc.) utilizzando un insieme di algoritmi di estrazione delle informazioni. Ciascuno di questi algoritmi estrae diversi tipi di conoscenza a seconda della sua "competenza, " e successivamente vengono valutati e combinati per raggiungere un'unica decisione coerente.
"In ROBOSHERLOCK, la percezione e l'interpretazione di scene realistiche è formulata come un problema di gestione delle informazioni non strutturate (UIM), " hanno scritto i ricercatori nel loro articolo. "L'applicazione del principio UIM supporta l'implementazione di sistemi di percezione in grado di rispondere a domande rilevanti per le attività sugli oggetti in una scena, aumentare le prestazioni di riconoscimento degli oggetti combinando i punti di forza di più algoritmi di percezione, supportare il ragionamento basato sulla conoscenza sugli oggetti e consentire la generazione automatica e basata sulla conoscenza di pipeline di elaborazione."
I ricercatori hanno valutato il loro quadro in una serie di test, applicandolo a diversi sistemi per la percezione della scena del mondo reale. Hanno scoperto che il "ragionamento" su (cioè, elaborazione) la conoscenza di base recuperata dai suoi algoritmi consente a ROBOSHERLOCK di rispondere a un'ampia varietà di domande, l'andare oltre è percepibile direttamente nell'ambiente circostante.
I componenti di ROBOSHERLOCK presentati dai ricercatori nel loro recente studio potrebbero essere visti come le sue funzionalità principali. Successivamente, i ricercatori hanno anche sviluppato diverse estensioni che migliorano le capacità cognitive del sistema. Ad esempio, hanno creato un'estensione che consente al sistema di rilevare esseri umani e oggetti contemporaneamente, ragionamento sulle azioni che gli umani stanno compiendo e le intenzioni dietro queste azioni.
"Più recentemente, abbiamo studiato come il framework ROBOSHERLOCK può consentire agli agenti di "sognare" e l'utilizzo di motori di gioco all'avanguardia generano variazioni di un compito e apprendono nuovi modelli di percezione, " hanno scritto i ricercatori nel loro articolo. "Tutte queste estensioni guardano alla percezione del robot dal punto di vista di un robot che esegue compiti, che non sarebbe stato possibile senza il quadro di base presentato qui."
© 2019 Scienza X Rete