华南理工大学学报(自然科学版) ›› 2009, Vol. 37 ›› Issue (1): 135-139.

• 计算机科学与技术 • 上一篇    下一篇

高效FTP搜索引擎的设计与实现

郭立力赵春江2   

  1. 1. 中国农业大学 工学院, 北京 100083;2. 国家农业信息化工程技术研究中心, 北京 100037
  • 收稿日期:2007-11-12 修回日期:2008-03-04 出版日期:2009-01-25 发布日期:2009-01-25
  • 通信作者: 赵春江(1964-),男,研究员,主要从事农业信息化技术与精准农业技术体系研究.E-mail:zhaocj@nercita.org.cn E-mail:holypku@163.com
  • 作者简介:郭立力(1971-),男,博士,主要从事大规模搜索引擎、用户个性化服务等研究.
  • 基金资助:

    国家“863”计划项目(2006AA10Z239);国家科技支撑计划项目(2006BAH02A16)

Design and Implementation of High-Performance FTP Search Engine

Guo Li-li1  Zhao Chun-jiang2   

  1. 1. College of Engineering, China Agricultural University, Beijing 100083, China; 2. National Engineering Research Center for Information Technology in Agriculture, Beijing 100037, China
  • Received:2007-11-12 Revised:2008-03-04 Online:2009-01-25 Published:2009-01-25
  • Contact: 赵春江(1964-),男,研究员,主要从事农业信息化技术与精准农业技术体系研究.E-mail:zhaocj@nercita.org.cn E-mail:holypku@163.com
  • About author:郭立力(1971-),男,博士,主要从事大规模搜索引擎、用户个性化服务等研究.
  • Supported by:

    国家“863”计划项目(2006AA10Z239);国家科技支撑计划项目(2006BAH02A16)

摘要: 为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量.

关键词: 文件传输协议, 搜索引擎, 倒排索引, 自动分类, 自动纠错

Abstract:

In order to improve the query quality of the traditional FTP search engines possessing low optimization performance for query results, a high-performance intelligent FTP search engine is designed based on the statistical analysis of FTP user query logs. In this engine, the double-byte inverted index is employed to build an inverted index table with every double bytes of the file name, the automatic classification of query results is used to establish a tree structure of query results based on the search topic, and the automatic error correction is adopted to construct a spelling mistake dictionary with the high-frequency search keywords in user query logs. Query results in a real system indicate that the proposed scheme greatly improves the query efficiency and quality of a FTP search engine.

Key words: File Transfer Protocol, search engine, inverted index, automatic classification, automatic error correction