采用经验复用的高效强化学习控制方法

华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (6): 70-75.

• 电子、通信与自动控制 • 上一篇下一篇

采用经验复用的高效强化学习控制方法

郝钏钏¹方舟^2†李平²

1．浙江大学控制科学与工程学系，浙江杭州 310027; 2．浙江大学航空航天学院，浙江杭州 310027

收稿日期:2011-09-30 修回日期:2012-03-09 出版日期:2012-06-25 发布日期:2012-05-03
通信作者: 方舟(1980-) ，男，博士，副教授，主要从事无人机导航制导与控制、先进学习控制方法的研究． E-mail: zfang@zju．edu．cn E-mail:cchao@ iipc.zju.edu.cn
作者简介:郝钏钏(1984-) ，男，博士生，主要从事无人机建模与控制、强化学习控制的研究．
基金资助:
国家自然科学基金青年科学基金资助项目( 61004066) ; 浙江省科技计划项目( 2011C23106)

Efficient Reinforcement-Learning Control Algorithm Using Experience Reuse

Hao Chuan-chuan¹Fang Zhou²Li Ping²

1. Department of Control Science and Engineering,Zhejiang University,Hangzhou 310027,Zhejiang,China; 2. School of Aeronautics and Astronautics,Zhejiang University,Hangzhou 310027,Zhejiang,China

Received:2011-09-30 Revised:2012-03-09 Online:2012-06-25 Published:2012-05-03
Contact: 方舟(1980-) ，男，博士，副教授，主要从事无人机导航制导与控制、先进学习控制方法的研究． E-mail: zfang@zju．edu．cn E-mail:cchao@ iipc.zju.edu.cn
About author:郝钏钏(1984-) ，男，博士生，主要从事无人机建模与控制、强化学习控制的研究．
Supported by:
国家自然科学基金青年科学基金资助项目( 61004066) ; 浙江省科技计划项目( 2011C23106)

摘要/Abstract

摘要： 使用定长情景进行学习的eNAC( episodic Natural Actor-Critic) 算法是一种在理论上具有良好学习性能的强化学习控制算法，但其学习过程需要采样较多的定长情景，学习效率低．为此，文中提出了一种新的强化学习控制算法ER-eNAC．该算法在eNAC 算法的基础上引入了定长情景复用机制，在自然策略梯度估计过程中，复用部分过去采样的定长情景以更有效地利用经验信息; 在使用复用的定长情景时，按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性．倒立摆稳定控制问题的仿真结果表明，与eNAC 算法相比，ER-eNAC 算法显著减少了学习过程中需要采样的定长情景的条数，提高了学习效率．

关键词: 强化学习, 自然策略梯度, 经验复用, 倒立摆控制

Abstract:

Though eNAC ( episodic Natural Actor-Critic) algorithm,an episode-based reinforcement learning control algorithm,is theoretically of excellent learning performance,it is inefficient in learning because many episodes are required to obtain a good policy. In order to solve this problem,a new algorithm named ER-eNAC,which introduces the episode reuse mechanism in eNAC algorithm,is proposed. In ER-eNAC,some of the past episodes are
reused in the estimation procedure of current natural policy gradient for the purpose of using the experience more efficiently,and the reused episodes are weighted in an exponential decay according to the number of policy updates that they have undergone for the purpose of describing their fitness to the current policy. The proposed algorithm is then applied to the inverted pendulum control. Simulated results show that,as compared with eNAC algorithm,ER-eNAC algorithm is more effective because it significantly reduces the number of episodes for learning and remarkably improves the learning efficiency.

Key words: reinforcement learning, natural policy gradient, experience reuse, inverted pendulum control

中图分类号:

TP273.22

郝钏钏方舟李平. 采用经验复用的高效强化学习控制方法[J]. 华南理工大学学报(自然科学版), 2012, 40(6): 70-75.

Hao Chuan-chuan Fang Zhou Li Ping. Efficient Reinforcement-Learning Control Algorithm Using Experience Reuse[J]. Journal of South China University of Technology(Natural Science Edition), 2012, 40(6): 70-75.

[1]	王福建, 程慧玲, 马东方, 等. 基于深度逆向强化学习的城市车辆路径链重构[J]. 华南理工大学学报(自然科学版), 2023, 51(7): 120-128.
[2]	陈锋, 毛豪滨, 蔡吉玲, 等. 面向低延时实时视频的多维跨层带宽预测[J]. 华南理工大学学报(自然科学版), 2023, 51(11): 18-27.
[3]	许伦辉, 余佳芯, 裴明阳, 等. 基于几何路网结构和强化学习的车辆重定位策略[J]. 华南理工大学学报(自然科学版), 2023, 51(10): 99-109.
[4]	王高, 陈晓鸿, 柳宁, 等. 一种基于视角选择经验增强算法的机器人抓取策略[J]. 华南理工大学学报(自然科学版), 2022, 50(9): 126-137.
[5]	闫军威黄琪周璇. 基于Double-DQN的中央空调系统节能优化运行[J]. 华南理工大学学报（自然科学版）, 2019, 47(1): 135-144.
[6]	邓卓明刘明波. 求解多目标暂态电压紧急控制的强化学习方法[J]. 华南理工大学学报（自然科学版）, 2015, 43(12): 9-17.
[7]	徐玉滨陈佳美马琳. 基于Q学习的WLAN/WIMAX接入控制网络选择策略[J]. 华南理工大学学报（自然科学版）, 2013, 41(8): 41-46,60.
[8]	余涛胡细兵刘靖. 基于多步回溯Q（λ）学习算法的多目标最优潮流计算[J]. 华南理工大学学报（自然科学版）, 2010, 38(10): 139-145.
[9]	卞建勇徐建闽裴海龙 . 基于强化学习的视频车辆跟踪[J]. 华南理工大学学报（自然科学版）, 2008, 36(10): 57-60,66.
[10]	彭志平彭宏. 基于并发Options 的双边多议题协商模型优化[J]. 华南理工大学学报（自然科学版）, 2007, 35(9): 95-100.

采用经验复用的高效强化学习控制方法

Efficient Reinforcement-Learning Control Algorithm Using Experience Reuse

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 10

编辑推荐

Metrics

本文评价