• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • I ricercatori introducono un nuovo algoritmo per ridurre i tempi di apprendimento automatico

    Credito:CC0 Dominio Pubblico

    Un team di ricerca guidato dal Prof. LI Huiyun degli Istituti di tecnologia avanzata di Shenzhen (SIAT) dell'Accademia cinese delle scienze ha introdotto un semplice algoritmo di apprendimento per rinforzo profondo (DRL) con tecnica bootstrap m-out-of-n e aggregato deterministico profondo multiplo strutture di algoritmi policy gradient (DDPG).

    Denominato "multi-DDPG aggregato bootstrap" (BAMDDPG), il nuovo algoritmo ha accelerato il processo di formazione e aumentato le prestazioni nell'area della ricerca artificiale intelligente.

    I ricercatori hanno testato il loro algoritmo su un robot 2-D e un simulatore di auto da corsa aperto (TORCS). I risultati dell'esperimento sul gioco del braccio robotico in 2D hanno mostrato che la ricompensa ottenuta dalla politica aggregata era del 10%-50% migliore di quella ottenuta dalle politiche secondarie, e i risultati dell'esperimento sul TORCS hanno dimostrato che il nuovo algoritmo potrebbe apprendere politiche di controllo di successo con un tempo di addestramento inferiore del 56,7%.

    L'algoritmo DDPG che opera su uno spazio continuo di azioni ha attirato grande attenzione per l'apprendimento per rinforzo. Però, la strategia di esplorazione attraverso la programmazione dinamica all'interno dello spazio di stato delle credenze bayesiano è piuttosto inefficiente anche per sistemi semplici. Questo di solito provoca il fallimento del bootstrap standard durante l'apprendimento di una politica ottimale.

    L'algoritmo proposto utilizza il buffer di riproduzione dell'esperienza centralizzato per migliorare l'efficienza dell'esplorazione. Il bootstrap M-out-of-n con inizializzazione casuale produce stime di incertezza ragionevoli a basso costo computazionale, aiutando nella convergenza della formazione. Il DDPG bootstrap proposto e aggregato può ridurre il tempo di apprendimento.

    BAMDDPG consente a ciascun agente di utilizzare le esperienze incontrate da altri agenti. Ciò rende più efficiente la formazione delle sottopolitiche di BAMDDPG poiché ogni agente possiede una visione più ampia e più informazioni sull'ambiente.

    Questo metodo è efficace per i dati di addestramento sequenziale e iterativo, dove i dati mostrano una distribuzione a coda lunga, piuttosto che la distribuzione della norma implicata dall'assunzione di dati identicamente distribuiti indipendenti. Può apprendere le politiche ottimali con molto meno tempo di formazione per compiti con spazio continuo di azioni e stati.

    Lo studio, intitolato "Deep Ensemble Reinforcement Learning con Multiple Deep Deterministic Policy Gradient Algorithm, " è stato pubblicato in Hindawi .


    © Scienza https://it.scienceaq.com