华南理工大学学报(自然科学版) ›› 2006, Vol. 34 ›› Issue (6): 74-78,94.

• 计算机科学与技术 • 上一篇    下一篇

利用支持向量回归确定相关Web查询

王继民1 彭波2 孟涛2   

  1. 1.北京大学 信息管理系,北京 100871;2.北京大学 信息科学技术学院,北京 100871
  • 收稿日期:2005-07-15 出版日期:2006-06-25 发布日期:2006-06-25
  • 通信作者: 王继民(1966-),男,博士,副教授,主要从事搜索引擎与Web挖掘方面的研究 E-mail:wjm@pku.edu.cn
  • 作者简介:王继民(1966-),男,博士,副教授,主要从事搜索引擎与Web挖掘方面的研究
  • 基金资助:

    国家自然科学基金资助项目(60573166);国家自然科学基金重点资助项目(60435020)

Determination of Related Web Queries Using Support Vector Regression

Wang Ji-min1  Peng Bo2  Meng Tao2   

  1. 1.Dept.of Information Management,Peking Univ.,Beijing 100871,China;2.School of Electronics Engineering and Computer Science,Peking Univ.,Beijing 100871,China
  • Received:2005-07-15 Online:2006-06-25 Published:2006-06-25
  • Contact: 王继民(1966-),男,博士,副教授,主要从事搜索引擎与Web挖掘方面的研究 E-mail:wjm@pku.edu.cn
  • About author:王继民(1966-),男,博士,副教授,主要从事搜索引擎与Web挖掘方面的研究
  • Supported by:

    国家自然科学基金资助项目(60573166);国家自然科学基金重点资助项目(60435020)

摘要: 对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型。根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.

关键词: 搜索引擎, 用户日志, 相关Web查询, 支持向量回归

Abstract:

When a user submits a Web query to a search engine,it is helpful for the user to modify the query and find the needed information if the system returns a list of related Web queries.This paper presents a new determ ina-tion method of related Web queries using support vector regression.In this method,five quantified indexes of a candidate query are extracted from the log files,including the submitted number of the candidate query ,the total numbers of submitting the candidate query and hitting the returned resuh,the number of common terms and the number of hitting common URL(Uniform Resource Locator)between the candidate query and the given query.The obtained candidate queries are then ranked based on support vector regression models learned from parts of human.1abeled training data.The related Web queries are finally determ ined according to the relevance.Experimental re-suits show that the proposed method is of high prediction precision.

Key words: search engine, user log, related Web query , support vector regression