华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (5): 30-37.
冯少荣 肖文俊
Feng Shao-rong Xiao Wen-jun
摘要: 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.