华南理工大学学报(自然科学版) ›› 2014, Vol. 42 ›› Issue (5): 135-142.doi: 10.3969/j.issn.1000-565X.2014.05.021
陈吉荣 乐嘉锦
Chen Ji- rong Le Jia- jin
摘要: 经典 MapReduce 编程模型的输出结果不是单一的 Hadoop 分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的 MapReduce 编程模型:SingleMapReduce.该模型通过拦截 Job Successful 状态,将输出目录下的所有文件“整合”为单一文件.文中给出了 HDFS 的 4 个重要特征, 提出了 HDFS 的“块典型分布” 和“块非典型分布” 的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的 MapReduce 计算的输出结果为单一文件;该模型可以再次以文件的形式对 MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到 HDFS 中;该模型间接支持了名称节点的扩展性.