基于多步回溯Q（λ）学习算法的多目标最优潮流计算

doi:10.3969/j.issn.1000-565X.2010.10.026

华南理工大学学报（自然科学版） ›› 2010, Vol. 38 ›› Issue (10): 139-145.doi: 10.3969/j.issn.1000-565X.2010.10.026

基于多步回溯Q（λ）学习算法的多目标最优潮流计算

余涛胡细兵刘靖

华南理工大学电力学院, 广东广州 510640

收稿日期:2010-03-24 修回日期:2010-05-16 出版日期:2010-10-25 发布日期:2010-10-25
通信作者: 余涛（1974-），男，博士，副教授，主要从事复杂电力系统的非线性控制理论和最优化方法研究． E-mail:taoyul@scut．edu．cn
作者简介:余涛（1974-），男，博士，副教授，主要从事复杂电力系统的非线性控制理论和最优化方法研究．
基金资助:
国家自然科学基金资助项目（50807016）; 广东省自然科学基金资助项目（9151064101000049）; 中央高校基本科研业务费专项资金资助项目（2009ZM0251）

Multi-Objective Optimal Power Flow Calculation Based on Multi-Step Q（λ） Learning Algorithm

Yu Tao Hu Xi-bing Liu Jing

School of Electric Power,South China University of Technology,Guangzhou 510640,Guangdong,China

Received:2010-03-24 Revised:2010-05-16 Online:2010-10-25 Published:2010-10-25
Contact: 余涛（1974-），男，博士，副教授，主要从事复杂电力系统的非线性控制理论和最优化方法研究． E-mail:taoyul@scut．edu．cn
About author:余涛（1974-），男，博士，副教授，主要从事复杂电力系统的非线性控制理论和最优化方法研究．
Supported by:
国家自然科学基金资助项目（50807016）; 广东省自然科学基金资助项目（9151064101000049）; 中央高校基本科研业务费专项资金资助项目（2009ZM0251）

摘要/Abstract

摘要： 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q（λ）学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q（λ）学习算法在处理多目标最优潮流问题时的可行性和有效性.

关键词: 电力系统, 最优潮流, Q（λ）学习算法, 多目标优化, 强化学习

Abstract:

As the conventional optimization algorithms of power flow cannot meet the requirements of real-time scheduling of power system with complex and nonlinear descriptional multi-objective optimal power flow（OPF）,this paper presents a multi-step Q（λ） learning algorithm based on the semi-Markov decision process.This algorithm,independent of any accurate model,converts the constraints,actions and targets of the optimal power flow to the status,actions and rewards of the algorithm,and dynamically finds the optimal action by continuous fault testing,retrospecting and iteration.By comparing comparison of the proposed algorithm with other algorithms in several IEEE standard examples,it is found that the Q（λ） learning algorithm is feasible and effective in dealing with multi-objective OPF problems.

Key words: electric power system, optimal power flow, Q（λ） learning algorithm, multi-objective optimization, reinforcement learning

余涛胡细兵刘靖. 基于多步回溯Q（λ）学习算法的多目标最优潮流计算[J]. 华南理工大学学报（自然科学版）, 2010, 38(10): 139-145.

Yu Tao Hu Xi-bing Liu Jing. Multi-Objective Optimal Power Flow Calculation Based on Multi-Step Q（λ） Learning Algorithm[J]. Journal of South China University of Technology (Natural Science Edition), 2010, 38(10): 139-145.

[1]	王学武, 方俊宇, 高进, 等. 基于改善解集分布性的多目标优化[J]. 华南理工大学学报(自然科学版), 2023, 51(8): 137-148.
[2]	王福建, 程慧玲, 马东方, 等. 基于深度逆向强化学习的城市车辆路径链重构[J]. 华南理工大学学报(自然科学版), 2023, 51(7): 120-128.
[3]	李树勋, 胡迎港, 李成, 等. 基于代理模型的轴流式调节阀阀体型线优化[J]. 华南理工大学学报(自然科学版), 2023, 51(3): 41-52.
[4]	陈锋, 毛豪滨, 蔡吉玲, 等. 面向低延时实时视频的多维跨层带宽预测[J]. 华南理工大学学报(自然科学版), 2023, 51(11): 18-27.
[5]	许伦辉, 余佳芯, 裴明阳, 等. 基于几何路网结构和强化学习的车辆重定位策略[J]. 华南理工大学学报(自然科学版), 2023, 51(10): 99-109.
[6]	王高, 陈晓鸿, 柳宁, 等. 一种基于视角选择经验增强算法的机器人抓取策略[J]. 华南理工大学学报(自然科学版), 2022, 50(9): 126-137.
[7]	赵克刚, 何坤阳, 黎杰, 等. 基于改进动态规划法的HEV多目标能量管理策略[J]. 华南理工大学学报(自然科学版), 2022, 50(9): 138-148.
[8]	蒋涛, 路洲. 高架铁路客运站平天窗的多目标优化[J]. 华南理工大学学报(自然科学版), 2022, 50(7): 13-24.
[9]	刘汉武, 雷雨龙, 付尧, 等. 基于多目标优化的增程式电动汽车自适应制动回馈控制策略[J]. 华南理工大学学报（自然科学版）, 2021, 49(7): 42-50,65.
[10]	金霞, 胡俊聪, 王威, 等. 虚拟环境下汽车引擎盖的匹配调整策略[J]. 华南理工大学学报（自然科学版）, 2020, 48(6): 87-96.
[11]	姚恩建张金萌郇宁. 效率与公平导向下城轨大小交路开行方案优化[J]. 华南理工大学学报（自然科学版）, 2020, 48(5): 41-48,57.
[12]	闫军威黄琪周璇. 基于Double-DQN的中央空调系统节能优化运行[J]. 华南理工大学学报（自然科学版）, 2019, 47(1): 135-144.
[13]	吴迪刘立李晓俊刘丛红. 基于多目标优化的被动式低能耗建筑技术研究 ———以寒冷地区居住建筑为例 [J]. 华南理工大学学报（自然科学版）, 2018, 46(4): 98-104,120.
[14]	白中浩何成朱峰. 复合材料三明治结构板的电磁和冲击性能分析[J]. 华南理工大学学报（自然科学版）, 2016, 44(9): 137-143.
[15]	翟振坤李迪. 基于多目标优化的数控实时任务参数选择方法[J]. 华南理工大学学报（自然科学版）, 2016, 44(3): 23-28.

基于多步回溯Q（λ）学习算法的多目标最优潮流计算

Multi-Objective Optimal Power Flow Calculation Based on Multi-Step Q（λ） Learning Algorithm

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价