华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (6): 70-75.
郝钏钏1 方舟2† 李平2
Hao Chuan-chuan1 Fang Zhou2 Li Ping2
摘要: 使用定长情景进行学习的eNAC( episodic Natural Actor-Critic) 算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC 算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息; 在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC 算法相比,ER-eNAC 算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.
中图分类号: