华南理工大学学报(自然科学版) ›› 2014, Vol. 42 ›› Issue (8): 122-128,135.doi: 10.3969/j.issn.1000-565X.2014.08.019

• 交通与运输工程 • 上一篇    下一篇

基于属性维划分和MapReduce 的道路运输信息系统数据聚类

郑晓峰 徐建闽 卢凯   

  1. 华南理工大学 土木与交通学院,广东 广州 510640
  • 收稿日期:2014-04-15 修回日期:2014-07-15 出版日期:2014-08-25 发布日期:2014-07-01
  • 通信作者: 郑晓峰(1977-),男,在职博士生,广东省道路运输管理局工程师,主要从事智能交通和道路交通运输管理研究. E-mail:bobcraft@163.com
  • 作者简介:郑晓峰(1977-),男,在职博士生,广东省道路运输管理局工程师,主要从事智能交通和道路交通运输管理研究.
  • 基金资助:

    国家自然科学基金资助项目( 61174184) ; 广东省工业科技攻关计划项目( 2008B010200010) ; 广州市科技支撑项目( 2011J4300045)

Data Clustering of Road Transportation Information System Based on Attribute Dimension Partition and MapReduce

Zheng Xiao-feng Xu Jian-min Lu Kai   

  1. School of Civil Engineering and Transportation,South China University of Technology,Guangzhou 510640,Guangdong,China
  • Received:2014-04-15 Revised:2014-07-15 Online:2014-08-25 Published:2014-07-01
  • Contact: 郑晓峰(1977-),男,在职博士生,广东省道路运输管理局工程师,主要从事智能交通和道路交通运输管理研究. E-mail:bobcraft@163.com
  • About author:郑晓峰(1977-),男,在职博士生,广东省道路运输管理局工程师,主要从事智能交通和道路交通运输管理研究.
  • Supported by:

    国家自然科学基金资助项目( 61174184) ; 广东省工业科技攻关计划项目( 2008B010200010) ; 广州市科技支撑项目( 2011J4300045)

摘要: 针对基于密度的带有噪声空间聚类分析( DBSCAN) 的不足,融合了领域知识和划分思想,提出了属性维划分的概念,并论证了基于局部簇合并与核心点计算的剪枝原理,最后结合云计算编程模式MapReduce 的特点,给出了DBSCAN 的优化方法,并在实际道路运输信息系统数据的聚类分析中得到应用验证. 实践证明划分后的数据集易于实现并行聚类数据挖掘,文中优化方法优于一般的统计分析方法.

关键词: 道路运输, DBSCAN, 属性维, 划分, MapReduce, 聚类

Abstract:

Aiming at the shortcomings of DBSCAN ( Density-Based Spatial Clustering of Applications with Noise) ,this paper presents the concept of the attribute dimension partition by integrating the domain knowledge with thepartition idea.Then,the principles of the cluster merging and the pruning computation are demonstrated.Finally,an optimization method of DBSCAN is put forward based on the cloud computing programming model MapReduce,and the optimization method is verified through the data clustering of a real road transport information system.It isfound that the dataset partition helps to perform the concurrent computation,and the proposed optimization methodis superior to common statistical methods.

Key words: road transportation, DBSCAN, attribute dimension, partition, MapReduce, clustering

中图分类号: