Pianificatore di movimento di guida autonoma basato sui dati sulla piattaforma Apollo. Credito:Fan et al.
I ricercatori della multinazionale cinese Baidu hanno recentemente sviluppato un framework di autotuning basato sui dati per veicoli a guida autonoma basato sulla piattaforma di guida autonoma Apollo. Il quadro, presentato in un articolo pre-pubblicato su arXiv, consiste in un nuovo algoritmo di apprendimento per rinforzo e una strategia di formazione offline, nonché un metodo automatico di raccolta ed etichettatura dei dati.
Un pianificatore di movimento per la guida autonoma è un sistema progettato per generare una traiettoria sicura e confortevole per raggiungere una destinazione desiderata. Progettare e mettere a punto questi sistemi per garantire che funzionino bene in diverse condizioni di guida è un compito difficile che diverse aziende e ricercatori in tutto il mondo stanno attualmente cercando di affrontare.
"La pianificazione del movimento per le auto a guida autonoma presenta molti problemi impegnativi, "Fan Haoyang, uno dei ricercatori che ha condotto lo studio, ha detto a Tech Xplore. "Una delle sfide principali è che deve affrontare migliaia di scenari diversi. In genere, definiamo un tuning funzionale ricompensa/costo in grado di adattare tali differenze negli scenari. Però, troviamo che è un compito difficile."
Tipicamente, la messa a punto funzionale del premio-costo richiede un ampio lavoro da parte dei ricercatori, così come le risorse e il tempo spesi sia per le simulazioni che per le prove su strada. Inoltre, l'ambiente può cambiare drasticamente nel tempo e man mano che le condizioni di guida diventano più complicate, la messa a punto delle prestazioni del pianificatore di movimento diventa sempre più difficile.
Ciclo di sintonizzazione dell'algoritmo per il pianificatore di movimento nella piattaforma di guida autonoma Apollo. Credito:Fan et al.
"Per risolvere sistematicamente questo problema, abbiamo sviluppato un framework di autotuning basato sui dati basato sul framework di guida autonoma Apollo, "Fan ha detto. "L'idea dell'autotuning è di apprendere i parametri dai dati di guida dimostrati dall'uomo. Per esempio, vorremmo capire dai dati come i conducenti umani bilanciano la velocità e la comodità di guida con le distanze degli ostacoli. Ma in scenari più complicati, Per esempio, una città affollata, cosa possiamo imparare dai conducenti umani?"
Il framework di auto-tuning sviluppato da Baidu include un nuovo algoritmo di apprendimento per rinforzo, che può imparare dai dati e migliorare le sue prestazioni nel tempo. Rispetto alla maggior parte degli algoritmi di apprendimento per rinforzo inverso, può essere efficacemente applicato a diversi scenari di guida.
Il framework include anche una strategia di formazione offline, offrendo ai ricercatori un modo sicuro per regolare i parametri prima che un veicolo autonomo venga testato sulle strade pubbliche. Raccoglie anche dati da conducenti esperti e informazioni sull'ambiente, etichettandoli automaticamente in modo che possano essere analizzati dall'algoritmo di apprendimento per rinforzo.
Rete siamese in RC-IRL. Le reti di valore di entrambe le traiettorie umane e campionate condividono le stesse impostazioni dei parametri di rete. La funzione di perdita valuta la differenza tra i dati campionati e la traiettoria generata tramite le uscite della rete di valori. Credito:Fan et al.
"Penso che abbiamo sviluppato una pipeline sicura per creare un sistema scalabile di apprendimento automatico utilizzando dati dimostrativi umani, " Fan ha detto. "I dati demo umani a ciclo aperto vengono raccolti e non necessitano di etichettatura aggiuntiva. Poiché il processo di formazione è anche offline, il nostro metodo è adatto per la pianificazione del movimento di guida autonoma, mantenendo la sicurezza dei test su strada pubblica."
I ricercatori hanno valutato un pianificatore di movimento messo a punto utilizzando la loro struttura sia su simulazioni che su prove su strada pubblica. Rispetto agli approcci esistenti, il loro metodo basato sui dati è stato in grado di adattarsi meglio a diversi scenari di guida, prestazioni costantemente buone in una varietà di condizioni.
La rete di valori all'interno del modello siamese viene utilizzata per catturare il comportamento di guida in base alle caratteristiche codificate. La rete è una combinazione lineare addestrabile di ricompense codificate in tempi diversi t =t0, ..., t17. Il peso della ricompensa codificata è un fattore di decadimento temporale apprendibile. La ricompensa codificata include un livello di input con 21 funzionalità grezze e un livello nascosto con 15 nodi per coprire possibili interazioni. I parametri della ricompensa in momenti diversi condividono lo stesso per mantenere la coerenza. Credito:Fan et al.
"La nostra ricerca si basa sulla piattaforma di guida autonoma Open Source di Baidu Apollo, "Fan ha detto. "Speriamo che sempre più persone del mondo accademico e dell'industria possano contribuire all'ecosistema della guida autonoma attraverso Apollo. In futuro, abbiamo in programma di migliorare l'attuale struttura di Baidu Apollo in un sistema scalabile di apprendimento automatico in grado di migliorare sistematicamente la copertura dello scenario delle auto a guida autonoma".
© 2018 Tech Xplore