基于Q学习的WLAN/WIMAX接入控制网络选择策略

doi:10.3969/j.issn.1000-565X.2013.08.007

华南理工大学学报（自然科学版） ›› 2013, Vol. 41 ›› Issue (8): 41-46,60.doi: 10.3969/j.issn.1000-565X.2013.08.007

• 电子、通信与自动控制 • 上一篇下一篇

基于Q学习的WLAN/WIMAX接入控制网络选择策略

徐玉滨陈佳美马琳

哈尔滨工业大学通信技术研究所，黑龙江哈尔滨 150080

收稿日期:2012-06-30 修回日期:2013-02-17 出版日期:2013-08-25 发布日期:2013-07-01
通信作者: 徐玉滨(1954-)，男，博士，教授，主要从事通信网及专用移动通信系统、导航定位技术和多媒体通信技术研究． E-mail:ybxu@hit.edu.cn
作者简介:徐玉滨(1954-)，男，博士，教授，主要从事通信网及专用移动通信系统、导航定位技术和多媒体通信技术研究．
基金资助:
国家自然科学基金资助项目(61071105)

Q- Learning- Based Network Selection Strategy for Access Control in WLAN/WIMAX

Xu Yu- bin Chen Jia- mei Ma Lin

Harbin Institute of Technology,School of Electronics and Information Engineering,Harbin 150080,Heilongjiang,China

Received:2012-06-30 Revised:2013-02-17 Online:2013-08-25 Published:2013-07-01
Contact: 徐玉滨(1954-)，男，博士，教授，主要从事通信网及专用移动通信系统、导航定位技术和多媒体通信技术研究． E-mail:ybxu@hit.edu.cn
About author:徐玉滨(1954-)，男，博士，教授，主要从事通信网及专用移动通信系统、导航定位技术和多媒体通信技术研究．
Supported by:
国家自然科学基金资助项目(61071105)

摘要/Abstract

摘要： 无线异构网络中，接入控制机制是决定无线异构网络性能的关键因素之一．文中提出一种基于 Q 学习的无线异构网络接入控制的网络选择算法．系统中的学习者将会利用历史经验，通过迭代思想来执行 Q 学习算法，最终获得网络选择的最优策略．此外，在系统做出决策之前，算法从一个新的角度详细分析了 WLAN/WIMAX 无线异构网络的状态，为 Q 学习算法提供精确的底层决策输入参数．仿真数据表明: 与传统的基于马尔科夫决策( MDP) 的接入控制网络选择方案相比，新算法在呼叫阻塞率和系统回报最大化上都表现出了更加优良的性能．

关键词: 网络选择, 资源管理, 强化学习, Q 学习

Abstract:

In wireless heterogeneous networks,the access control mechanism plays a vital role in ensuring the net-work performance.This paper proposes a Q- learning- based network selection algorithm for the access control of wireless heterogeneous networks.In the algorithm,the agent takes advantage of the past experience to implement a Q- learning algorithm by means of value iteration,thus obtaining the optimal strategy.Moreover,before the system makes decisions,the statuses of the wireless heterogeneous network of WLAN/WIMAX are analyzed in detail from a new perspective,thus providing accurate input bottom layer parameters for the Q- learning algorithm.Simulation results show that the proposed algorithm outperforms the traditional Markov Decision Process (MDP) algorithm in terms of the call- blocking probability and the system reward.

Key words: network selection, resource management, reinforcement learning, Q- learning

中图分类号:

TN92

徐玉滨陈佳美马琳. 基于Q学习的WLAN/WIMAX接入控制网络选择策略[J]. 华南理工大学学报（自然科学版）, 2013, 41(8): 41-46,60.

Xu Yu- bin Chen Jia- mei Ma Lin. Q- Learning- Based Network Selection Strategy for Access Control in WLAN/WIMAX[J]. Journal of South China University of Technology (Natural Science Edition), 2013, 41(8): 41-46,60.

[1]	王福建, 程慧玲, 马东方, 等. 基于深度逆向强化学习的城市车辆路径链重构[J]. 华南理工大学学报(自然科学版), 2023, 51(7): 120-128.
[2]	陈锋, 毛豪滨, 蔡吉玲, 等. 面向低延时实时视频的多维跨层带宽预测[J]. 华南理工大学学报(自然科学版), 2023, 51(11): 18-27.
[3]	许伦辉, 余佳芯, 裴明阳, 等. 基于几何路网结构和强化学习的车辆重定位策略[J]. 华南理工大学学报(自然科学版), 2023, 51(10): 99-109.
[4]	王高, 陈晓鸿, 柳宁, 等. 一种基于视角选择经验增强算法的机器人抓取策略[J]. 华南理工大学学报(自然科学版), 2022, 50(9): 126-137.
[5]	闫军威黄琪周璇. 基于Double-DQN的中央空调系统节能优化运行[J]. 华南理工大学学报（自然科学版）, 2019, 47(1): 135-144.
[6]	邓卓明刘明波. 求解多目标暂态电压紧急控制的强化学习方法[J]. 华南理工大学学报（自然科学版）, 2015, 43(12): 9-17.
[7]	郎改平徐玉滨马琳. 基于非合作博弈论的异构网络选择算法[J]. 华南理工大学学报（自然科学版）, 2014, 42(5): 29-35.
[8]	郝钏钏方舟李平. 采用经验复用的高效强化学习控制方法[J]. 华南理工大学学报(自然科学版), 2012, 40(6): 70-75.
[9]	张宏烈张国印 . 一种应用图论方法管理可重构资源的策略[J]. 华南理工大学学报（自然科学版）, 2010, 38(11): 91-95.
[10]	余涛胡细兵刘靖. 基于多步回溯Q（λ）学习算法的多目标最优潮流计算[J]. 华南理工大学学报（自然科学版）, 2010, 38(10): 139-145.
[11]	卞建勇徐建闽裴海龙 . 基于强化学习的视频车辆跟踪[J]. 华南理工大学学报（自然科学版）, 2008, 36(10): 57-60,66.
[12]	彭志平彭宏. 基于并发Options 的双边多议题协商模型优化[J]. 华南理工大学学报（自然科学版）, 2007, 35(9): 95-100.

基于Q学习的WLAN/WIMAX接入控制网络选择策略

Q- Learning- Based Network Selection Strategy for Access Control in WLAN/WIMAX

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 12

编辑推荐

Metrics

本文评价