华南理工大学学报(自然科学版) ›› 2010, Vol. 38 ›› Issue (7): 20-26.doi: 10.3969/j.issn.1000-565X.2010.07.004

• 计算机科学与技术 • 上一篇    下一篇

基于知识粒度的高属性维稀疏聚类算法

赵洁 肖南峰 陈琼   

  1. 华南理工大学 计算机科学与工程学院, 广东 广州 510006
  • 收稿日期:2009-12-04 修回日期:2010-01-29 出版日期:2010-07-25 发布日期:2010-07-25
  • 通信作者: 赵洁(1979-),女,现就职于广东工业大学,讲师,博士生,主要从事智能计算与电子商务研究. E-mail:kitten-zj@163.com
  • 作者简介:赵洁(1979-),女,现就职于广东工业大学,讲师,博士生,主要从事智能计算与电子商务研究.
  • 基金资助:

    国家自然科学基金委员会与中国民用航空总局联合资助项目(60776816); 广东省自然科学基金重点资助项目(8251064101000005); 广东省科技计划项目(2007B060401007); 广东工业大学青年基金项目(072058); 广东高校优秀青年创新人才培养计划(育苗工程)项目(100070)

High-Attribute Dimensional Sparse Clustering Algorithm Based on Knowledge Granularity

Zhao Jie  Xiao Nan-feng  Chen Qiong   

  1. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China
  • Received:2009-12-04 Revised:2010-01-29 Online:2010-07-25 Published:2010-07-25
  • Contact: 赵洁(1979-),女,现就职于广东工业大学,讲师,博士生,主要从事智能计算与电子商务研究. E-mail:kitten-zj@163.com
  • About author:赵洁(1979-),女,现就职于广东工业大学,讲师,博士生,主要从事智能计算与电子商务研究.
  • Supported by:

    国家自然科学基金委员会与中国民用航空总局联合资助项目(60776816); 广东省自然科学基金重点资助项目(8251064101000005); 广东省科技计划项目(2007B060401007); 广东工业大学青年基金项目(072058); 广东高校优秀青年创新人才培养计划(育苗工程)项目(100070)

摘要: 目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限。针对这些问题,给出一种基于信息粒度的高属性维聚类算法。首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义,然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力,最后结合应用领域定义一种新的聚类质量的评价模型。实验证明,算法具有更广应用性,可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征。

关键词: 知识粒度, 高属性维稀疏数据, 初始等价关系, 不可区分度, 聚类质量评价

Abstract:

Most existing high-attribute dimensional sparse clustering algorithms can only process binary data and are insufficient in evaluating clustering results,which limits their applications. In order to solve this problem,a noval high-attribute dimensional sparse clustering algorithm based on knowledge granularity is proposed. In this algorithm,first,a semi-fuzzy clustering algorithm is persented to discretize sparse data,with which the sparse similarity and the initial equivalence relation are defined. Then,a precision-variable quadratic clustering model is established to refine the results and further to improve the noise resistance of the proposed algorithm. Finally,an applicationoriented evaluation model of clustering quantity is defined. Test results show that the proposed algorithm is suitable for various granularities and helps to obtain high-accuracy of results of reflecting data characteristics.

Key words: knowledge granularity, high-attribute dimensional sparse data, initial equivalence relation, indiscernibility degree, clustering quality evaluation