华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (5): 30-37.

• 计算机科学与技术 • 上一篇    下一篇

基于语义距离的高效文本聚类算法

冯少荣 肖文俊   

  1. 华南理工大学 计算机科学与工程学院, 广东 广州 510640
  • 收稿日期:2007-06-27 修回日期:2007-09-03 出版日期:2008-05-25 发布日期:2008-05-25
  • 通信作者: 冯少荣(1964-),男,在职博士生,厦门大学副教授,主要从事并行分布数据库、数据仓库、数据挖掘方面的研究. E-mail:shaorong@xmu.edu.cn
  • 作者简介:冯少荣(1964-),男,在职博士生,厦门大学副教授,主要从事并行分布数据库、数据仓库、数据挖掘方面的研究.
  • 基金资助:

    国家自然科学基金资助项目(50474033)

High-Efficiency Text Clustering Algorithm Based on Semantic Distance

Feng Shao-rong  Xiao Wen-jun    

  1. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China
  • Received:2007-06-27 Revised:2007-09-03 Online:2008-05-25 Published:2008-05-25
  • Contact: 冯少荣(1964-),男,在职博士生,厦门大学副教授,主要从事并行分布数据库、数据仓库、数据挖掘方面的研究. E-mail:shaorong@xmu.edu.cn
  • About author:冯少荣(1964-),男,在职博士生,厦门大学副教授,主要从事并行分布数据库、数据仓库、数据挖掘方面的研究.
  • Supported by:

    国家自然科学基金资助项目(50474033)

摘要: 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.

关键词: 文本聚类, 语义距离, 相似度, 最近邻聚类, 聚类算法

Abstract:

As the existing text clustering algorithms overlook the semantic information between words and possess low calculation accuracy of text similarity,this paper proposes a new text clustering algorithm based on the semantic distance.In this method,the text is analyzed in terms of semantic,and the specific semantic of the text is used to calculate the similarity.Moreover,the nearest neighbor clustering algorithm is adopted,and a second clustering algorithm is presented to overcome the sensitivity of the nearest neighbor clustering algorithm to the input order of the text.According to the similarity weight,some feature words representing the cluster are chosen,which makes the remained feature words similar to the themes of the cluster.Experimental results indicate that the proposed algorithm is of higher clustering precision and recall rate,as compared with the k-Means algorithm based on the vector space model.

Key words: text clustering, semantic distance, similarity, nearest neighbor clustering, clustering algorithm