华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (9): 42-47.

• 计算机科学与技术 • 上一篇    下一篇

基于动态带宽分配的Hadoop 数据负载均衡方法

林伟伟1 刘波2   

  1. 1.华南理工大学 计算机科学与工程学院,广东 广州 510006; 2.华南师范大学 计算机学院,广东 广州 510631
  • 收稿日期:2012-01-05 修回日期:2012-07-17 出版日期:2012-09-25 发布日期:2012-08-01
  • 通信作者: 林伟伟(1980-) ,男,博士,副教授,主要从事分布式计算、云计算、移动互联网研究. E-mail:linww@scut.edu.cn
  • 作者简介:林伟伟(1980-) ,男,博士,副教授,主要从事分布式计算、云计算、移动互联网研究.
  • 基金资助:

    广东省自然科学基金资助项目( 10451064101005155,S2011010001754) ; 广东省科技计划项目( 2012B010100030) ;广东省战略性新兴产业核心技术攻关项目( 2011A010801002) ; 广州市海珠区科技计划项目( x2jsB2120750)

Hadoop Data Load Balancing Method Based on Dynamic Bandwidth Allocation

Lin Wei-weiLiu Bo2   

  1. 1.  School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China; 2. School of Computer Science,South China Normal University,Guangzhou 510631,Guangdong,China
  • Received:2012-01-05 Revised:2012-07-17 Online:2012-09-25 Published:2012-08-01
  • Contact: 林伟伟(1980-) ,男,博士,副教授,主要从事分布式计算、云计算、移动互联网研究. E-mail:linww@scut.edu.cn
  • About author:林伟伟(1980-) ,男,博士,副教授,主要从事分布式计算、云计算、移动互联网研究.
  • Supported by:

    广东省自然科学基金资助项目( 10451064101005155,S2011010001754) ; 广东省科技计划项目( 2012B010100030) ;广东省战略性新兴产业核心技术攻关项目( 2011A010801002) ; 广州市海珠区科技计划项目( x2jsB2120750)

摘要: 数据负载均衡对Hadoop 分布式文件系统( HDFS) 性能有着重要的影响,针对HDFS 中默认的数据负载均衡方法存在的效率低和缺乏灵活性的不足,文中提出了一种新的动态负载均衡方法,即通过控制变量来动态分配网络带宽以达到数据负载均衡.在此基础上建立了基于控制变量的数据负载均衡数学模型.实验结果表明,文中提出的方法既能保证HDFS 的数据访问性能,又能提高集群加入新节点时的数据负载均衡效率.

关键词: Hadoop, 负载均衡, 带宽

Abstract:

Data load balancing greatly affects the performance of the Hadoop distributed file system ( HDFS). In order to overcome the inefficiency and inflexibility of the default data load balancing method in HDFS,this paper devises a novel dynamic load balancing method,which dynamically allocates network bandwidth to achieve the data load balancing by controlling variables. Then,the corresponding mathematical model is constructed based on the controlled variables. Experimental results show that the devised method can not only guarantee the performance of the HDFS data access system but also improve the data load balancing efficiency in the presence of a new cluster node.

Key words: Hadoop, load balancing, bandwidth