华南理工大学学报(自然科学版) ›› 2019, Vol. 47 ›› Issue (2): 98-105.doi: 10.12141/j.issn.1000-565X.170550
纪霞1, 2 张涛1 朱建磊1 刘诗诚1 李学俊1, 2
JI Xia1, 2 ZHANG Tao1 ZHU Jianlei1 LIU Shicheng1 LI Xuejun1, 2
摘要: DPC 算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样 本分配策略上存在聚类质量不稳定的缺陷. 其改进算法 KNN-DPC 虽然具有较好的聚类 效果,但效率不高而影响实用. 针对以上问题,文中提出了一种近邻密度分布优化的 DPC 算法. 该算法在 DPC 算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分 布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇. 理论分析和在经典人工 数据集以及 UCI 真实数据集上的实验结果表明: 文中提出的聚类算法能快速确定任意形 状数据的类簇中心和有效地进行样本类簇分配;与 DPC 算法和 KNN-DPC 算法相比,文中 算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自 适应聚类分析.
中图分类号: