基于主题的文档检索模型

华南理工大学学报（自然科学版） ›› 2008, Vol. 36 ›› Issue (9): 37-42.

基于主题的文档检索模型

贾西平彭宏郑启伦石时需江焯林

华南理工大学计算机科学与工程学院, 广东广州 510640

收稿日期:2008-01-11 修回日期:2008-04-02 出版日期:2008-09-25 发布日期:2008-09-25
通信作者: 贾西平（1976-），男，博士生，主要从事自然语言处理、数据挖掘研究． E-mail:jiaxp@126．com
作者简介:贾西平（1976-），男，博士生，主要从事自然语言处理、数据挖掘研究．
基金资助:
广东省自然科学基金资助项目（07006474）;广东省科技攻关项目（2007B010200044）

Topic-Based Document Retrieval Model

Jia Xi-ping Peng Hong Zheng Qi-lun Shi Shi-xu Jiang Zhuo-lin

School of Computer Science and Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China

Received:2008-01-11 Revised:2008-04-02 Online:2008-09-25 Published:2008-09-25
Contact: 贾西平（1976-），男，博士生，主要从事自然语言处理、数据挖掘研究． E-mail:jiaxp@126．com
About author:贾西平（1976-），男，博士生，主要从事自然语言处理、数据挖掘研究．
Supported by:
广东省自然科学基金资助项目（07006474）;广东省科技攻关项目（2007B010200044）

摘要/Abstract

摘要： 现有文档检索模型大多缺乏语义学习能力，难以从主题层次上学习文档相似性．为此，文中提出了一种基于主题的文档检索模型TDRM．TDRM为所有文档建立公共主题空间，把每篇文档表示为公共主题空间中的一个向量，用向量夹角余弦定义文档相似度，并利用Latent Dirichlet AlLocation学习每篇文档的主题分布．实验结果表明，与基于TextTiling和二分图最佳匹配的文档相似模型相比，TDRM在相似文档检索方面有更高的平均查准率和平均查全率，且平均查准率和平均查全率的调和平均数约高出参考模型44％.

关键词: 主题, 文档相似性, 文档检索, 信息检索, 数据挖掘

Abstract:

As most existing document retrieval models are inefficient in semantic learning and are unable to learn the document similarity in topic level, a topic-based document retrieval model （TDRM） is p TDRM provides a common topic space for all documents, represents each document as a vector in the common space, defines the document similarity as the cosine of the angle between document vectors, and uses Latent Dirichlet Allocation to learn the topic distribution of each document. Experimental results show that, as compared with the document similarity model based on the TextTiling and the optimal matching of bipartite graph, TDRM is of higher average precision and recall in the retrieval of similar document, with its harmonic mean of average precision and recall being 44% greater than that of the reference model.

Key words: topic, document similarity, document retrieval, information retrieval, data mining

贾西平彭宏郑启伦石时需江焯林. 基于主题的文档检索模型[J]. 华南理工大学学报（自然科学版）, 2008, 36(9): 37-42.

Jia Xi-ping Peng Hong Zheng Qi-lun Shi Shi-xu Jiang Zhuo-lin . Topic-Based Document Retrieval Model[J]. Journal of South China University of Technology (Natural Science Edition), 2008, 36(9): 37-42.

[1]	蔡晓东洪涛曹艺. 基于极化关系表述与低维数据间关联学习的推荐模型[J]. 华南理工大学学报（自然科学版）, 2022, 50(1): 122-131.
[2]	张子烨, 李明畅, 梁凌睿, 等. 推荐系统信息跨领域的改进迁移学习算法[J]. 华南理工大学学报（自然科学版）, 2020, 48(11): 99-106.
[3]	吴文静景鹏贾洪飞张铭航. 基于 K 均值聚类与随机森林算法的居民低碳出行意向数据挖掘[J]. 华南理工大学学报（自然科学版）, 2019, 47(7): 105-111.
[4]	蔡泽祥马国龙孙宇嫣黄昱翰. 基于数据挖掘的电力设备运维与决策分析方法[J]. 华南理工大学学报（自然科学版）, 2019, 47(6): 57-64,71.
[5]	马丽红王小娥田菁张宇. 基于隐藏主题概率模型的图像结构感知SISR重建方法[J]. 华南理工大学学报（自然科学版）, 2019, 47(4): 1-9.
[6]	董守斌谢一帆袁华陈建豪. 基于主题模型的资源选择算法[J]. 华南理工大学学报（自然科学版）, 2017, 45(3): 48-53.
[7]	郑晓峰王曙. 基于粗糙集与关联规则的道路运输管理信息数据挖掘方法[J]. 华南理工大学学报（自然科学版）, 2014, 42(2): 132-138.
[8]	陈兴蜀张帅童浩崔晓靖. 基于布尔矩阵和 MapReduce 的 FP-Growth 算法[J]. 华南理工大学学报（自然科学版）, 2014, 42(1): 135-141.
[9]	周亦鹏杜军平. 基于时空情境模型的主题跟踪[J]. 华南理工大学学报(自然科学版), 2012, 40(8): 82-87.
[10]	梁瑾罗飞许玉格. 基于决策表的模糊粗糙单调依赖算法及其应用[J]. 华南理工大学学报（自然科学版）, 2011, 39(7): 7-12.
[11]	林古立彭宏马千里韦佳覃姜维. 一种基于关键词的网页搜索结果多样化方法[J]. 华南理工大学学报（自然科学版）, 2011, 39(5): 102-107.
[12]	张福勇齐德昱胡镜林. 基于IRP的未知恶意代码检测方[J]. 华南理工大学学报（自然科学版）, 2011, 39(4): 15-20.
[13]	马千里林古立. 基于聚类和用户点击的在线多样化排序算法[J]. 华南理工大学学报（自然科学版）, 2011, 39(12): 70-74,99.
[14]	蒋昌金彭宏陈建超马千里. 基于主题词权重和句子特征的自动文摘[J]. 华南理工大学学报（自然科学版）, 2010, 38(7): 50-55.
[15]	李红梅丁振国周水生周利华. 基于概念分组的Web搜索结果聚类算法[J]. 华南理工大学学报（自然科学版）, 2009, 37(1): 130-134.