华南理工大学学报(自然科学版) ›› 2009, Vol. 37 ›› Issue (4): 18-23,45.
戴维迪1 张璐2 王文俊1 侯越先1
Dai Wei-di1 Zhang Lu2 Wang Wen-jun1 Hou Yue-xian1
摘要: 真实数据集通常密度分布不均,多数基于网格和密度的聚类算法采用的单调性搜索方法难以形成有效聚类.为此,文中提出了基于网格密度和距离信息特征的聚类算法(GDD).该算法将数据空间划分成网格单元,并构建基于簇中心距离信息的跃迁函数,通过考察局域范围内网格单元的密度跃迁比,并比对计算出的当前网格单元的跃迁函数值,以决定是否继续扩展和增长聚类簇规模.具体的跃迁函数在真实和模拟集上的实验结果表明:GDD算法能够发现任意形状的簇,对噪音数据不敏感,且具有线性于网格数目的时间复杂性,适合对大规模真实数据集的聚类.