SingleMapReduce:单一输出 HDFS 文件的 MapReduce编程模型

doi:10.3969/j.issn.1000-565X.2014.05.021

华南理工大学学报（自然科学版） ›› 2014, Vol. 42 ›› Issue (5): 135-142.doi: 10.3969/j.issn.1000-565X.2014.05.021

SingleMapReduce:单一输出 HDFS 文件的 MapReduce编程模型

陈吉荣乐嘉锦

东华大学计算机科学与技术学院，上海 201620

收稿日期:2013-11-19 修回日期:2014-03-23 出版日期:2014-05-25 发布日期:2014-04-01
通信作者: 陈吉荣(1971-)，男，讲师，博士后，主要从事 Hadoop 生态系统大数据平台研究． E-mail:chenjirongdh@163.com
作者简介:陈吉荣(1971-)，男，讲师，博士后，主要从事 Hadoop 生态系统大数据平台研究．
基金资助:
国家核高基专项(2010ZX01042-001-003)

SingleMapReduce: a MapReduce Programming Model Outputting Single HDFS File

Chen Ji- rong Le Jia- jin

School of Computer Science and Technology,Donghua University,Shanghai 201620,China

Received:2013-11-19 Revised:2014-03-23 Online:2014-05-25 Published:2014-04-01
Contact: 陈吉荣(1971-)，男，讲师，博士后，主要从事 Hadoop 生态系统大数据平台研究． E-mail:chenjirongdh@163.com
About author:陈吉荣(1971-)，男，讲师，博士后，主要从事 Hadoop 生态系统大数据平台研究．
Supported by:
国家核高基专项(2010ZX01042-001-003)

摘要/Abstract

摘要： 经典 MapReduce 编程模型的输出结果不是单一的 Hadoop 分布式文件系统(HDFS)文件，为此，文中提出了单一输出文件的 MapReduce 编程模型:SingleMapReduce．该模型通过拦截 Job Successful 状态，将输出目录下的所有文件“整合”为单一文件．文中给出了 HDFS 的 4 个重要特征，提出了 HDFS 的“块典型分布” 和“块非典型分布” 的概念，设计了一种通过整合元数据来达到整合文件的算法．理论分析和实验结果表明:该模型的 MapReduce 计算的输出结果为单一文件;该模型可以再次以文件的形式对 MapReduce计算的输出结果进行分片，并可用并行方式导入大表或大文件到 HDFS 中;该模型间接支持了名称节点的扩展性．

关键词: 分布式计算系统, 元数据, MapReduce, Hadoop 分布式文件系统, 名称节点, 数据节点, 块

Abstract:

In order to obtain single HDFS (Hadoop Distributed File System) file that cannot be provided by classi-cal MapReduce programming model,a new MapReduce programming model named SingleMapReduce is presented.In this mode,all files in an output directory are consolidated into a single HDFS file by intercepting Job Successfulstate.Then,four features of HDFS are summarized,and two concepts including Typical Distribution of Block andAtypical Distribution of Block are proposed,on the basis of which metadata are integrated to obtain integrated files.The results of theoretical analysis and experiments show that (1) one MapReduce computing on the basis of Sin-gleMapReduce helps achieve single output file; (2) the output produced by one MapReduce computing can be splitvia file splitting; (3) one large- scale table or one large- scale file can be imported into HDFS in a parallel manner;and (4) SingleMapReduce supports the scalability of name node in auxiliary.

Key words: distributed computing system, metadata, MapReduce, Hadoop distributed file system, name node;data node, block

陈吉荣乐嘉锦. SingleMapReduce:单一输出 HDFS 文件的 MapReduce编程模型[J]. 华南理工大学学报（自然科学版）, 2014, 42(5): 135-142.

Chen Ji- rong Le Jia- jin. SingleMapReduce: a MapReduce Programming Model Outputting Single HDFS File[J]. Journal of South China University of Technology (Natural Science Edition), 2014, 42(5): 135-142.

[1]	吴波, 黄婷婷. 再生块体/骨料混凝土中不同界面的碳化性能及孔隙特征[J]. 华南理工大学学报(自然科学版), 2023, 51(7): 52-60.
[2]	何源福, 夏毅敏, 李深远, 等. 钢拱架封口机构抓取模块传动性能分析及优化设计[J]. 华南理工大学学报(自然科学版), 2022, 50(8): 82-91.
[3]	吴波, 陈昭南, 王辉. 配筋及不配筋再生块体/骨料混凝土的徐变行为[J]. 华南理工大学学报(自然科学版), 2022, 50(7): 35-42.
[4]	余陆斌, 田联房, 杜启亮. 基于多分支注意力孪生网络的目标跟踪算法[J]. 华南理工大学学报(自然科学版), 2022, 50(12): 30-40.
[5]	张艳, 高梓健, 许昌康, 等. 基于融合分布图网络的触觉压力足迹分类方法[J]. 华南理工大学学报（自然科学版）, 2022, 50(1): 91-100.
[6]	张文东, 石刚, 田生伟, 等. 基于社会关系的群智感知任务分发机制[J]. 华南理工大学学报（自然科学版）, 2021, 49(6): 49-55.
[7]	张艳, 吴洛天, 王年, 等. 基于多模块关系网络的2D足迹分类[J]. 华南理工大学学报（自然科学版）, 2021, 49(6): 66-76.
[8]	张瑞峰, 白金桐, 关欣, 等. 结合SE与BiSRU的Unet的音乐源分离方法[J]. 华南理工大学学报（自然科学版）, 2021, 49(11): 106-115,134.
[9]	杨春玲郑钊彪李金昊. CVS 中基于块分类的自适应阈值调整组稀疏重构[J]. 华南理工大学学报（自然科学版）, 2020, 48(8): 29-37,48.
[10]	臧孟炎, 王立臣, 周涛, 等. 子午线轮胎的动态特性仿真分析与评价[J]. 华南理工大学学报（自然科学版）, 2020, 48(8): 124-129.
[11]	吴波叶文杰. 内置高强钢管的圆钢管混凝土柱轴压性能试验研究[J]. 华南理工大学学报（自然科学版）, 2020, 48(4): 1-8.
[12]	郑运平李睿君. 二叉树模型在目标跟踪中的应用[J]. 华南理工大学学报（自然科学版）, 2020, 48(1): 42-50.
[13]	刘建国, 冯云剑, 纪郭, 等. 一种基于 PSMNet 改进的立体匹配算法[J]. 华南理工大学学报（自然科学版）, 2020, 48(1): 60-69,83.
[14]	吴波陈宇菲. 再生块体混凝土板的冲切性能试验研究[J]. 华南理工大学学报（自然科学版）, 2019, 47(8): 1-8.
[15]	黄宁黄曙光黄晖邓兆琨. 基于静态指令分配的多模块 ROP 自动构造方法[J]. 华南理工大学学报（自然科学版）, 2019, 47(6): 31-38.

SingleMapReduce:单一输出 HDFS 文件的 MapReduce编程模型

SingleMapReduce: a MapReduce Programming Model Outputting Single HDFS File

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价