华南理工大学学报(自然科学版) ›› 2019, Vol. 47 ›› Issue (8): 105-112.doi: 10.12141/j.issn.1000-565X.180497

• 计算机科学与技术 • 上一篇    下一篇

非结构化云数据管理系统不稳定数据分区识别算法

郑美光 杨姣 常成龙 胡志刚   

  1. 中南大学 计算机学院,湖南 长沙 410083
  • 收稿日期:2018-10-08 修回日期:2019-04-24 出版日期:2019-08-25 发布日期:2019-08-01
  • 通信作者: 郑美光(1983-),女,博士,副教授,主要从事云计算、大数据管理优化研究. E-mail:zhengmeiguang@csu.edu.cn
  • 作者简介:郑美光(1983-),女,博士,副教授,主要从事云计算、大数据管理优化研究.
  • 基金资助:
    国家自然科学基金资助项目(61602525,61572525);中南大学中央高校基本科研业务费专项资金资助项目(2018zzts624)

Unstable Data Partition Recognition Algorithm for Unstructured Cloud Data Management System

ZHENG Meiguang YANG Jiao CHANG Chenglong HU Zhigang   

  1. School of Computer Science and Engineering,Central South University,Changsha 410083,Hunan,China
  • Received:2018-10-08 Revised:2019-04-24 Online:2019-08-25 Published:2019-08-01
  • Contact: 郑美光(1983-),女,博士,副教授,主要从事云计算、大数据管理优化研究. E-mail:zhengmeiguang@csu.edu.cn
  • About author:郑美光(1983-),女,博士,副教授,主要从事云计算、大数据管理优化研究.
  • Supported by:
    Supported by the National Natural Science Foundation of China(61602525,61572525)

摘要: 在大数据背景下,非结构化云数据管理系统中数据节点需要处理不断膨胀的原 始数据、索引数据和中间数据,“数据膨胀”将显著增加云数据管理系统的时间和能耗等 各类开销. 为降低非结构化数据管理系统因数据频繁移动而导致的数据传输开销,文中提 出了一种不稳定数据分区的识别算法. 首先面向非结构化数据管理系统,通过引入云模型 理论对存储系统中的数据分区进行云建模,识别出不稳定的数据分区,然后调用相关算法 对其进行重新布局. 实验结果显示,不稳定数据分区识别算法可以有效地识别出不稳定的 数据分区,对其重新布局后,降低数据传输开销的效果显著.

关键词: 大数据, 云模型, 数据分区, 数据传输, 不稳定分区

Abstract: In the context of big data,data nodes in unstructured cloud data management systems need to process ever-expanding raw data,index data and intermediate data. “Data expansion”will significantly increase the time and energy consumption of cloud data management systems. In order to reduce the data transmission overhead caused by the frequent movement of data in unstructured data management system,an algorithm for identifying unstable data partitions was proposed. Firstly,for the unstructured data management system,the cloud model of data partition was conducted in the storage system by introducing the cloud model theory,and unstable data partitions were identified. Then the relevant algorithm was called to re-layout unstable data partitions. Experimental results show that the unstable data partition identification algorithm can effectively identify unstable data partitions and relayout them,and significantly reduce data transmission overhead.

Key words: big data, cloud model, data partition, data transmission, unstable partition

中图分类号: