华南理工大学学报(自然科学版) ›› 2011, Vol. 39 ›› Issue (4): 26-31,37.doi: 10.3969/j.issn.1000-565X.2011.04.005

• 计算机科学与技术 • 上一篇    下一篇

基于用户浏览时间的点击模型

何靖 袁文清 闫宏飞   

  1. 北京大学 计算机科学与技术系,北京 100871
  • 收稿日期:2011-01-10 出版日期:2011-04-25 发布日期:2011-03-01
  • 通信作者: 何靖(1982-) ,男,博士生,主要从事信息检索、网络数据挖掘的研究. E-mail:hj@ net.pku.edu.cn
  • 作者简介:何靖(1982-) ,男,博士生,主要从事信息检索、网络数据挖掘的研究.
  • 基金资助:

    国家自然科学基金资助项目( 70903008, 60933004, 61073082, 60773162) ; CNGI 搜索引擎项目( CNGI2008-122) ;教育部科技发展中心“网络时代的科技论文快速共享”专项研究资助课题( FSSP 2010 Grant 15)

Click Model Based on Browsing Time of User

He Jing  Yuan Wen-qing  Yan Hong-fei   

  1. Department of Computer Science and Technology,Peking University,Beijing 100871,China
  • Received:2011-01-10 Online:2011-04-25 Published:2011-03-01
  • Contact: 何靖(1982-) ,男,博士生,主要从事信息检索、网络数据挖掘的研究. E-mail:hj@ net.pku.edu.cn
  • About author:何靖(1982-) ,男,博士生,主要从事信息检索、网络数据挖掘的研究.
  • Supported by:

    国家自然科学基金资助项目( 70903008, 60933004, 61073082, 60773162) ; CNGI 搜索引擎项目( CNGI2008-122) ;教育部科技发展中心“网络时代的科技论文快速共享”专项研究资助课题( FSSP 2010 Grant 15)

摘要: 用户的点击行为会受到用户的浏览行为、周围文档的特征等因素的影响,故在分析用户点击日志时不能直接将用户点击解释为文档相关性.为了更加准确地获得文档的相关性特征,文中提出了基于用户浏览时间的点击模型.假设文档原文的相关性会影响用户浏览该文档原文的时间,即文档越相关用户浏览文档的耗时越长,这样便可利用用户浏览文档的时间来推测文档的相关程度; 经过分析,确定使用指数分布来描述浏览时间; 最后通过实验验证了该模型的有效性.结果表明,所提出的模型能够比较好地估计文档的相关性,更加准确地预测用户的点击情况,其性能优于现有的点击模型.

关键词: 搜索引擎日志, 点击模型, 文档相关性特征, 浏览时间

Abstract:

As the clicks of users are affected by many factors such as the browsing behaviors of users and the features of adjacent documents,they cannot be directly interpreted as document relevance during the analysis of users' click log. In order to obtain correct document relevance features,a click model based on browsing time is proposed. In this model,the document relevance is assumed to affect the browsing time for the document,which means a user may spend more browsing time if the document is more likely to be relevant. Therefore,the document relevance can be estimated according to the browsing time. Then,an exponential distribution is determined to describe users' browsing time,and some experiments are carried out to verify the effectiveness of the proposed model. The results indicate that the model is superior to the existing click models because it can estimate document relevance and future clicks more accurately.

Key words: search engine log, click model, document relevance feature, browsing time