基于核方法的分类型属性数据集模糊聚类算法

华南理工大学学报(自然科学版) ›› 2004, Vol. 32 ›› Issue (9): 23-28.

基于核方法的分类型属性数据集模糊聚类算法

伍忠东¹ 高新波¹ 谢维信²

1．西安电子科技大学电子工程学院陕西西安710071；2．深圳大学信息工程学院广东深圳518060

收稿日期:2003-12-10 出版日期:2004-09-20 发布日期:2015-09-09
通信作者: 伍忠东（1968－）男博士生副教授主要从事模糊信息处理、机器学习和信息安全方面的研究． E-mail:wuzhd＠lab202.xidian.edu.cn
作者简介:伍忠东（1968－）男博士生副教授主要从事模糊信息处理、机器学习和信息安全方面的研究．
基金资助:
国家自然科学基金资助项目（60202004）

A New Fuzzy Clustering Algorithm of Categorical Data Set Based on the Kernel Method

Wu Zhong- dong¹ Gao Xin- bo¹ Xie Wei- xin²

1．School of Electronic EngineeringXidian Univ．Xi’an710071ShaanxiChina；
2．College of Information EngineeringShenzhen Univ．Shenzhen518060GuangdongChina

Received:2003-12-10 Online:2004-09-20 Published:2015-09-09
Contact: 伍忠东（1968－）男博士生副教授主要从事模糊信息处理、机器学习和信息安全方面的研究．伍忠东（1968－）男博士生副教授主要从事模糊信息处理、机器学习和信息安全方面的研究． E-mail:wuzhd＠lab202.xidian.edu.cn
About author:伍忠东（1968－）男博士生副教授主要从事模糊信息处理、机器学习和信息安全方面的研究．
Supported by:

摘要/Abstract

摘要： 针对分类型属性数据的聚类问题将核方法的思想推广到快速、高效率的模糊 c－均值算法构造了基于核函数的模糊核 c－均值聚类算法．该算法通过使用经验核矩阵充分利用了数据间的“相异性”信息并且避免了模糊 k-modes 算法中每次迭代均要直接计算类中心的缺点提高了聚类的精确度和稳定性同时该算法对模式（类中心）的初始值选择不敏感．对实际的线性可分的和线性不可分的分类型属性数据集的仿真实验证明了该算法的有效性．

关键词: 分类型属性数据, 聚类, 数据挖掘, 模糊 c－均值, 核方法

Abstract: Aiming at the clustering of the categorical data and by extending the kernel method to the fast efficient fuzzy c-means clustering algorithma fuzzy kernel c-means （FKCM） clustering algorithm based on the kernel func-tion was constructed．In this algorithmthe empirical kernel matrix is applied in order to fully utilize the dissimilarity information among the data．Unlike the fuzzy k-mode algorithmthe modes in the new algorithm need not be directly calculated in each iterationthus improving the precision and stability of the clustering algorithm and making the new algorithm insensitive to the selection of mode（centroid） initialization．A simulation was finally carried out on the actu-al linearly and nonlinearly separable categorical data setswhich demonstrates the effectiveness of the proposed algo-rithm．

Key words: categorical data, clustering, data mining, fuzzy c-means, kernel method

伍忠东高新波谢维信. 基于核方法的分类型属性数据集模糊聚类算法[J]. 华南理工大学学报(自然科学版), 2004, 32(9): 23-28.

Wu Zhong- dong Gao Xin- bo Xie Wei- xin. A New Fuzzy Clustering Algorithm of Categorical Data Set Based on the Kernel Method[J]. Journal of South China University of Technology(Natural Science Edition), 2004, 32(9): 23-28.

[1]	刘怡俊, 王嘉达, 钟仕杰, 等. 基于统一标签矩阵的快速多视图聚类[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 110-119.
[2]	王学武, 方俊宇, 高进, 等. 基于改善解集分布性的多目标优化[J]. 华南理工大学学报(自然科学版), 2023, 51(8): 137-148.
[3]	林培群, 龚敏平, 周楚昊. 面向运输风险识别的高速公路货车用户画像方法[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 1-9.
[4]	于斌, 张钰钦, 王羽尘, 等. 基于车载激光点云的道路几何信息自动化提取[J]. 华南理工大学学报(自然科学版), 2023, 51(2): 88-99.
[5]	周璇, 王馨瑶, 闫军威, 等. 基于机器学习的建筑复杂用能系统运行状态异常检测[J]. 华南理工大学学报(自然科学版), 2022, 50(7): 144-154.
[6]	陈廷照, 陈艳艳, 王子理, 等. “轨道交通微中心”理念下的慢行影响区范围确定方法[J]. 华南理工大学学报(自然科学版), 2022, 50(7): 56-65.
[7]	兰凤崇, 张越, 陈吉清, 等. 人车碰撞事故中行人伤亡风险的关联性分析与预测 [J]. 华南理工大学学报(自然科学版), 2022, 50(5): 1-10.
[8]	刘小兰, 石宗宇, 叶泽慧, 等. 基于锚点图的低秩缺失多视图子空间聚类[J]. 华南理工大学学报(自然科学版), 2022, 50(12): 60-70.
[9]	蔡晓东洪涛曹艺. 基于极化关系表述与低维数据间关联学习的推荐模型[J]. 华南理工大学学报（自然科学版）, 2022, 50(1): 122-131.
[10]	陈吉清, 舒孝雄, 兰凤崇, 等. 典型危险事故特征的自动驾驶测试场景构建[J]. 华南理工大学学报（自然科学版）, 2021, 49(5): 1-8.
[11]	梁京章, 黄星舒, 吴丽娟, 等. 基于 KPCA 和改进 K- means 的电力负荷曲线聚类方法[J]. 华南理工大学学报（自然科学版）, 2020, 48(6): 143-150.
[12]	李智, 陈业航, 冯宝, 等. 基于活动轮廓模型的脑梗死图像分割[J]. 华南理工大学学报（自然科学版）, 2020, 48(5): 102-111,124.
[13]	张子烨, 李明畅, 梁凌睿, 等. 推荐系统信息跨领域的改进迁移学习算法[J]. 华南理工大学学报（自然科学版）, 2020, 48(11): 99-106.
[14]	刘小兰叶泽慧. 基于 StarGAN 和子空间学习的缺失多视图聚类[J]. 华南理工大学学报（自然科学版）, 2020, 48(11): 87-98.
[15]	郑思凡, 王卫星, 何占华, 等. 双粒度光流流形学习的刮刷总成摆杆摆幅检测[J]. 华南理工大学学报（自然科学版）, 2020, 48(1): 123-132.