华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (1): 152-158.
林伟伟
Lin Wei-wei
摘要: 采用现有的Hadoop 默认数据放置策略时,若本地数据副本失效,从远程结点上恢复数据需要耗费大量数据传输时间,且随机选取数据放置结点可能会影响数据放置的负载均衡. 为此,文中提出一种改进的数据放置策略. 该策略基于结点网络距离与数据负载计算每个结点的调度评价值,据此选择一个最佳的远程数据副本的放置结点,从而既能实现数据放置的负载均衡,又能实现良好的数据传输性能. 在Hadoop 平台上实现了所提出的数据副本放置改进策略,结果表明,与系统默认策略相比,文中提出的策略不仅可以改进数据放置的负载均衡,而且可以减少数据副本放置的时间.
中图分类号: