华南理工大学学报(自然科学版) ›› 2014, Vol. 42 ›› Issue (1): 135-141.doi: 10.3969/j.issn.1000-565X.2014.01.023

• 计算机科学与技术 • 上一篇    下一篇

基于布尔矩阵和 MapReduce 的 FP-Growth 算法

陈兴蜀 张帅 童浩 崔晓靖   

  1. 四川大学 计算机学院,四川 成都 610065
  • 收稿日期:2013-05-06 修回日期:2013-10-22 出版日期:2014-01-25 发布日期:2013-12-01
  • 通信作者: 陈兴蜀(1968-),女,教授,博士生导师,主要从事信息安全、计算机网络研究. E-mail:chenxsh@scu.edu.cn
  • 作者简介:陈兴蜀(1968-),女,教授,博士生导师,主要从事信息安全、计算机网络研究.
  • 基金资助:

    国家自然科学基金面上项目(61272447)

FP- Growth Algorithm Based on Boolean Matrix and MapReduce

Chen Xing- shu Zhang Shuai Tong Hao Cui Xiao- jing   

  1. College of Computer,Sichuan University,Chengdu 610065,Sichuan,China
  • Received:2013-05-06 Revised:2013-10-22 Online:2014-01-25 Published:2013-12-01
  • Contact: 陈兴蜀(1968-),女,教授,博士生导师,主要从事信息安全、计算机网络研究. E-mail:chenxsh@scu.edu.cn
  • About author:陈兴蜀(1968-),女,教授,博士生导师,主要从事信息安全、计算机网络研究.
  • Supported by:

    国家自然科学基金面上项目(61272447)

摘要: 关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和 MapReduce 的 FP- Growth 算法( BPFP) ,分析了算法的时间和空间复杂度.该算法使用 Hadoop 框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce 来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原 FP- Growth 算法相比,BPFP 算法具有更高的执行效率、更好的加速比.

关键词: 数据挖掘, 关联规则, 布尔矩阵, MapReduce, FP- Growth 算法

Abstract:

Association rules mining is an important part of data mining.In order to improve the efficiency of associ-ation rules mining,an FP- Growth algorithm based on Boolean matrix and MapReduce,which is marked as BPFP,is proposed,with its time and space complexity being also analyzed.In BPFP algorithm,Hadoop framework andBoolean matrix are used to reduce the number of scans of transaction data,and twice Map- Reduce is adopted tomine frequent item sets.Experimental results on multiple data sets show that the improved FP- Growth algorithm issuperior to the original one due to its high execution efficiency and speedup.

Key words: data mining, association rules, Boolean matrix, MapReduce, FP- Growth algorithm