华南理工大学学报(自然科学版) ›› 2011, Vol. 39 ›› Issue (4): 1-6.doi: 10.3969/j.issn.1000-565X.2011.04.001

• 计算机科学与技术 •    下一篇

基于文档重要度的静态索引剪枝方法

李晓明 单栋栋   

  1. 北京大学 信息科学技术学院,北京 100871
  • 收稿日期:2011-01-09 出版日期:2011-04-25 发布日期:2011-03-01
  • 通信作者: 李晓明(1957-) ,男,教授,主要从事网络信息搜索与挖掘研究. E-mail:lxm@ pku.edu.cn
  • 作者简介:李晓明(1957-) ,男,教授,主要从事网络信息搜索与挖掘研究.
  • 基金资助:

    国家自然科学基金资助项目( 60933004) ; 广东省计算机网络重点实验室资助项目( CCNL200601) ; “核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项项目( 2011ZX01042-001-001)

Static Index Pruning Based on Document Importance

Li Xiao-ming  Shan Dong-dong   

  1. School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China
  • Received:2011-01-09 Online:2011-04-25 Published:2011-03-01
  • Contact: 李晓明(1957-) ,男,教授,主要从事网络信息搜索与挖掘研究. E-mail:lxm@ pku.edu.cn
  • About author:李晓明(1957-) ,男,教授,主要从事网络信息搜索与挖掘研究.
  • Supported by:

    国家自然科学基金资助项目( 60933004) ; 广东省计算机网络重点实验室资助项目( CCNL200601) ; “核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项项目( 2011ZX01042-001-001)

摘要: 针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2 数据集上进行了验证. 实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点; 当剪枝后的索引大小是原始大小的13%时,P@ 10、P@ 20  值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@ 10、P@ 20 和MAP 都明显好于以往的剪枝方法.

关键词: 搜索引擎, 倒排索引, 静态索引剪枝, 文档重要度

Abstract:

As the quality and importance of Web pages are both variable,paper proposes a static index pruning method which uses the web page importance to determine the ratio of information kept for each document. The result of experiments on GOV2 dataset show that ( 1) the proposed method greatly reduces the storage size and speeds up the search; ( 2) when the pruned index takes only 13% of the original size,P@ 10 and P@ 20 reach or exceed the baseline using full index; and ( 3) by using the proposed method,P@ 10,P@ 20  and MAP are all better than those of the traditional method at the same pruning level.

Key words: search engine, inverted index, static index pruning, document importance