华南理工大学学报(自然科学版) ›› 2004, Vol. 32 ›› Issue (9): 23-28.

• • 上一篇    下一篇

基于核方法的分类型属性数据集模糊聚类算法

伍忠东1 高新波1 谢维信2   

  1. 1.西安电子科技大学 电子工程学院‚陕西 西安710071;2.深圳大学 信息工程学院‚广东 深圳518060
  • 收稿日期:2003-12-10 出版日期:2004-09-20 发布日期:2015-09-09
  • 通信作者: 伍忠东(1968-)‚男‚博士生‚副教授‚主要从事模糊信息处理、机器学习和信息安全方面的研究. E-mail:wuzhd@lab202.xidian.edu.cn
  • 作者简介:伍忠东(1968-)‚男‚博士生‚副教授‚主要从事模糊信息处理、机器学习和信息安全方面的研究.
  • 基金资助:
     国家自然科学基金资助项目(60202004)

A New Fuzzy Clustering Algorithm of Categorical Data Set Based on the Kernel Method

Wu Zhong- dong1 Gao Xin- bo1 Xie Wei- xin2   

  1. 1.School of Electronic Engineering‚Xidian Univ.‚Xi’an710071‚Shaanxi‚China;
    2.College of Information Engineering‚Shenzhen Univ.‚Shenzhen518060‚Guangdong‚China
  • Received:2003-12-10 Online:2004-09-20 Published:2015-09-09
  • Contact: 伍忠东(1968-)‚男‚博士生‚副教授‚主要从事模糊信息处理、机器学习和信息安全方面的研究.伍忠东(1968-)‚男‚博士生‚副教授‚主要从事模糊信息处理、机器学习和信息安全方面的研究. E-mail:wuzhd@lab202.xidian.edu.cn
  • About author:伍忠东(1968-)‚男‚博士生‚副教授‚主要从事模糊信息处理、机器学习和信息安全方面的研究.
  • Supported by:

摘要:  针对分类型属性数据的聚类问题‚将核方法的思想推广到快速、高效率的模糊 c-均值算法‚构造了基于核函数的模糊核 c-均值聚类算法.该算法通过使用经验核矩阵充分利用了数据间的“相异性”信息‚并且避免了模糊 k-modes 算法中每次迭代均要直接计算类中心的缺点‚提高了聚类的精确度和稳定性‚同时该算法对模式(类中心)的初始值选择不敏感.对实际的线性可分的和线性不可分的分类型属性数据集的仿真实验证明了该算法的有效性.

关键词:  分类型属性数据, 聚类, 数据挖掘, 模糊 c-均值, 核方法

Abstract: Aiming at the clustering of the categorical data and by extending the kernel method to the fast efficient fuzzy c-means clustering algorithm‚a fuzzy kernel c-means (FKCM) clustering algorithm based on the kernel func-tion was constructed.In this algorithm‚the empirical kernel matrix is applied in order to fully utilize the dissimilarity information among the data.Unlike the fuzzy k-mode algorithm‚the modes in the new algorithm need not be directly calculated in each iteration‚thus improving the precision and stability of the clustering algorithm and making the new algorithm insensitive to the selection of mode(centroid) initialization.A simulation was finally carried out on the actu-al linearly and nonlinearly separable categorical data sets‚which demonstrates the effectiveness of the proposed algo-rithm.

Key words:  categorical data, clustering, data mining, fuzzy c-means, kernel method