华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (6): 70-75.

• 电子、通信与自动控制 • 上一篇    下一篇

采用经验复用的高效强化学习控制方法

郝钏钏1 方舟2† 李平2   

  1. 1.浙江大学 控制科学与工程学系,浙江 杭州 310027; 2.浙江大学 航空航天学院,浙江 杭州 310027
  • 收稿日期:2011-09-30 修回日期:2012-03-09 出版日期:2012-06-25 发布日期:2012-05-03
  • 通信作者: 方舟(1980-) ,男,博士,副教授,主要从事无人机导航制导与控制、先进学习控制方法的研究. E-mail: zfang@zju.edu.cn E-mail:cchao@ iipc.zju.edu.cn
  • 作者简介:郝钏钏(1984-) ,男,博士生,主要从事无人机建模与控制、强化学习控制的研究.
  • 基金资助:

    国家自然科学基金青年科学基金资助项目( 61004066) ; 浙江省科技计划项目( 2011C23106)

Efficient Reinforcement-Learning Control Algorithm Using Experience Reuse

Hao Chuan-chuanFang ZhouLi Ping2   

  1. 1. Department of Control Science and Engineering,Zhejiang University,Hangzhou 310027,Zhejiang,China; 2. School of Aeronautics and Astronautics,Zhejiang University,Hangzhou 310027,Zhejiang,China
  • Received:2011-09-30 Revised:2012-03-09 Online:2012-06-25 Published:2012-05-03
  • Contact: 方舟(1980-) ,男,博士,副教授,主要从事无人机导航制导与控制、先进学习控制方法的研究. E-mail: zfang@zju.edu.cn E-mail:cchao@ iipc.zju.edu.cn
  • About author:郝钏钏(1984-) ,男,博士生,主要从事无人机建模与控制、强化学习控制的研究.
  • Supported by:

    国家自然科学基金青年科学基金资助项目( 61004066) ; 浙江省科技计划项目( 2011C23106)

摘要: 使用定长情景进行学习的eNAC( episodic Natural Actor-Critic) 算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC 算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息; 在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC 算法相比,ER-eNAC 算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.

关键词: 强化学习, 自然策略梯度, 经验复用, 倒立摆控制

Abstract:

Though eNAC ( episodic Natural Actor-Critic) algorithm,an episode-based reinforcement learning control algorithm,is theoretically of excellent learning performance,it is inefficient in learning because many episodes are required to obtain a good policy. In order to solve this problem,a new algorithm named ER-eNAC,which introduces the episode reuse mechanism in eNAC algorithm,is proposed. In ER-eNAC,some of the past episodes are
reused in the estimation procedure of current natural policy gradient for the purpose of using the experience more efficiently,and the reused episodes are weighted in an exponential decay according to the number of policy updates that they have undergone for the purpose of describing their fitness to the current policy. The proposed algorithm is then applied to the inverted pendulum control. Simulated results show that,as compared with eNAC algorithm,ER-eNAC algorithm is more effective because it significantly reduces the number of episodes for learning and remarkably improves the learning efficiency.

Key words: reinforcement learning, natural policy gradient, experience reuse, inverted pendulum control

中图分类号: