基于语义距离的高效文本聚类算法

华南理工大学学报（自然科学版） ›› 2008, Vol. 36 ›› Issue (5): 30-37.

基于语义距离的高效文本聚类算法

冯少荣肖文俊

华南理工大学计算机科学与工程学院, 广东广州 510640

收稿日期:2007-06-27 修回日期:2007-09-03 出版日期:2008-05-25 发布日期:2008-05-25
通信作者: 冯少荣（1964-），男，在职博士生，厦门大学副教授，主要从事并行分布数据库、数据仓库、数据挖掘方面的研究． E-mail:shaorong@xmu．edu．cn
作者简介:冯少荣（1964-），男，在职博士生，厦门大学副教授，主要从事并行分布数据库、数据仓库、数据挖掘方面的研究．
基金资助:
国家自然科学基金资助项目（50474033）

High-Efficiency Text Clustering Algorithm Based on Semantic Distance

Feng Shao-rong Xiao Wen-jun

School of Computer Science and Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China

Received:2007-06-27 Revised:2007-09-03 Online:2008-05-25 Published:2008-05-25
Contact: 冯少荣（1964-），男，在职博士生，厦门大学副教授，主要从事并行分布数据库、数据仓库、数据挖掘方面的研究． E-mail:shaorong@xmu．edu．cn
About author:冯少荣（1964-），男，在职博士生，厦门大学副教授，主要从事并行分布数据库、数据仓库、数据挖掘方面的研究．
Supported by:
国家自然科学基金资助项目（50474033）

摘要/Abstract

摘要： 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.

关键词: 文本聚类, 语义距离, 相似度, 最近邻聚类, 聚类算法

Abstract:

As the existing text clustering algorithms overlook the semantic information between words and possess low calculation accuracy of text similarity,this paper proposes a new text clustering algorithm based on the semantic distance.In this method,the text is analyzed in terms of semantic,and the specific semantic of the text is used to calculate the similarity.Moreover,the nearest neighbor clustering algorithm is adopted,and a second clustering algorithm is presented to overcome the sensitivity of the nearest neighbor clustering algorithm to the input order of the text.According to the similarity weight,some feature words representing the cluster are chosen,which makes the remained feature words similar to the themes of the cluster.Experimental results indicate that the proposed algorithm is of higher clustering precision and recall rate,as compared with the k-Means algorithm based on the vector space model.

Key words: text clustering, semantic distance, similarity, nearest neighbor clustering, clustering algorithm

冯少荣肖文俊. 基于语义距离的高效文本聚类算法[J]. 华南理工大学学报（自然科学版）, 2008, 36(5): 30-37.

Feng Shao-rong Xiao Wen-jun . High-Efficiency Text Clustering Algorithm Based on Semantic Distance[J]. Journal of South China University of Technology (Natural Science Edition), 2008, 36(5): 30-37.

[1]	林培群, 龚敏平, 周楚昊. 面向运输风险识别的高速公路货车用户画像方法[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 1-9.
[2]	苏锦钿洪晓斌余珊珊. 基于多模型集成的语义文本相似性判断[J]. 华南理工大学学报(自然科学版), 2022, 50(4): 1-9.
[3]	刘小兰, 石宗宇, 叶泽慧, 等. 基于锚点图的低秩缺失多视图子空间聚类[J]. 华南理工大学学报(自然科学版), 2022, 50(12): 60-70.
[4]	廖一鹏, 张进, 陈诗媛, 等. NSST 域融合 FREAK 及全方向相似度的泡沫崩塌率检测[J]. 华南理工大学学报(自然科学版), 2020, 48(5): 92-101.
[5]	郑思凡, 王卫星, 何占华, 等. 双粒度光流流形学习的刮刷总成摆杆摆幅检测[J]. 华南理工大学学报（自然科学版）, 2020, 48(1): 123-132.
[6]	陈维亚潘鑫方晓平 . 基于 K-means 聚类组合模型的公交线路客流短时预测[J]. 华南理工大学学报（自然科学版）, 2019, 47(4): 83-89,113.
[7]	吴鹏李雯霖齐德昱宋文龙. 基于阈值改进Contourlet 变换的图像融合算法[J]. 华南理工大学学报（自然科学版）, 2017, 45(1): 35-41,52.
[8]	李伟呼延菊沙爱民孙朝云郝雪丽. 基于 3D 数据和双尺度聚类算法的路面裂缝检测[J]. 华南理工大学学报（自然科学版）, 2015, 43(8): 99-105.
[9]	杜卿王齐轩黄东平蔡毅王涛闵华清. 基于社交关系的问答系统及最佳回答者推荐技术[J]. 华南理工大学学报（自然科学版）, 2015, 43(1): 132-139.
[10]	汪丽娜陈晓宏. 基于AFS优化初始聚类中心的G-K聚类模型[J]. 华南理工大学学报（自然科学版）, 2014, 42(9): 65-69.
[11]	古万荣董守斌何锦潮曾之肇. 基于二次聚类的新闻推荐方法[J]. 华南理工大学学报（自然科学版）, 2014, 42(7): 15-20,32.
[12]	王勇毛海军刘永何杰. 基于客户点多重特性的车辆路线优化[J]. 华南理工大学学报（自然科学版）, 2014, 42(2): 116-124.
[13]	首艳芳徐建闽. 基于群体动力学的协调控制子区划分[J]. 华南理工大学学报（自然科学版）, 2013, 41(4): 77-82.
[14]	贾连印奚建清李孟娟游进国刘勇苗德成. Dtrie-allpair: 高效的集合T- 覆盖连接算法[J]. 华南理工大学学报(自然科学版), 2012, 40(6): 109-117.
[15]	林翔宇陈耀武. 双域无参考视频质量评价算法[J]. 华南理工大学学报(自然科学版), 2012, 40(4): 64-70,78.