华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (9): 37-42.

• 计算机科学与技术 • 上一篇    下一篇

基于主题的文档检索模型

贾西平 彭宏 郑启伦 石时需 江焯林   

  1. 华南理工大学 计算机科学与工程学院, 广东 广州 510640
  • 收稿日期:2008-01-11 修回日期:2008-04-02 出版日期:2008-09-25 发布日期:2008-09-25
  • 通信作者: 贾西平(1976-),男,博士生,主要从事自然语言处理、数据挖掘研究. E-mail:jiaxp@126.com
  • 作者简介:贾西平(1976-),男,博士生,主要从事自然语言处理、数据挖掘研究.
  • 基金资助:

    广东省自然科学基金资助项目(07006474);广东省科技攻关项目(2007B010200044)

Topic-Based Document Retrieval Model

Jia Xi-ping  Peng Hong  Zheng Qi-lun  Shi Shi-xu  Jiang Zhuo-lin     

  1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China
  • Received:2008-01-11 Revised:2008-04-02 Online:2008-09-25 Published:2008-09-25
  • Contact: 贾西平(1976-),男,博士生,主要从事自然语言处理、数据挖掘研究. E-mail:jiaxp@126.com
  • About author:贾西平(1976-),男,博士生,主要从事自然语言处理、数据挖掘研究.
  • Supported by:

    广东省自然科学基金资助项目(07006474);广东省科技攻关项目(2007B010200044)

摘要: 现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet AlLocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.

关键词: 主题, 文档相似性, 文档检索, 信息检索, 数据挖掘

Abstract:

As most existing document retrieval models are inefficient in semantic learning and are unable to learn the document similarity in topic level, a topic-based document retrieval model (TDRM) is p TDRM provides a common topic space for all documents, represents each document as a vector in the common space, defines the document similarity as the cosine of the angle between document vectors, and uses Latent Dirichlet Allocation to learn the topic distribution of each document. Experimental results show that, as compared with the document similarity model based on the TextTiling and the optimal matching of bipartite graph, TDRM is of higher average precision and recall in the retrieval of similar document, with its harmonic mean of average precision and recall being 44% greater than that of the reference model.

Key words: topic, document similarity, document retrieval, information retrieval, data mining