华南理工大学学报(自然科学版) ›› 2010, Vol. 38 ›› Issue (10): 139-145.doi: 10.3969/j.issn.1000-565X.2010.10.026
余涛 胡细兵 刘靖
Yu Tao Hu Xi-bing Liu Jing
摘要: 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性.