华南理工大学学报(自然科学版) ›› 2011, Vol. 39 ›› Issue (12): 70-74,99.

• 计算机科学与技术 • 上一篇    下一篇

基于聚类和用户点击的在线多样化排序算法

马千里 林古立   

  1. 华南理工大学 计算机科学与工程学院,广东 广州 510006
  • 收稿日期:2011-06-17 修回日期:2011-08-25 出版日期:2011-12-25 发布日期:2011-11-04
  • 通信作者: 马千里(1980-) ,男,博士,讲师,主要从事机器学习、数据挖掘等的研究. E-mail:qianlima@scut.edu.cn
  • 作者简介:马千里(1980-) ,男,博士,讲师,主要从事机器学习、数据挖掘等的研究.
  • 基金资助:

    广东省教育部产学研结合项目( 2011B090400032) ; 教育部高等学校博士学科点专项科研基金资助项目( 20110172120027) ; 广东省自然科学基金资助项目( 9451064101003233) ; 广东省电子商务市场应用技术重点实验室开放基金资助项目( 2011GDECOF01) ; 华南理工大学中央高校基本科研业务费专项资金资助项目( 2009ZM0125,2009ZM0189,2009ZM0255)

Online Diversified Ranking Algorithm Based on Clustering and User Clicks

Ma Qian-li  Lin Gu-li   

  1. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China
  • Received:2011-06-17 Revised:2011-08-25 Online:2011-12-25 Published:2011-11-04
  • Contact: 马千里(1980-) ,男,博士,讲师,主要从事机器学习、数据挖掘等的研究. E-mail:qianlima@scut.edu.cn
  • About author:马千里(1980-) ,男,博士,讲师,主要从事机器学习、数据挖掘等的研究.
  • Supported by:

    广东省教育部产学研结合项目( 2011B090400032) ; 教育部高等学校博士学科点专项科研基金资助项目( 20110172120027) ; 广东省自然科学基金资助项目( 9451064101003233) ; 广东省电子商务市场应用技术重点实验室开放基金资助项目( 2011GDECOF01) ; 华南理工大学中央高校基本科研业务费专项资金资助项目( 2009ZM0125,2009ZM0189,2009ZM0255)

摘要: 在互联网信息检索中,多样化排序方法力求在排序结果列表靠前的位置为用户提供多样的结果文档.文中提出一种基于聚类和用户点击的在线多样化排序算法CRBA,通过结合文档的相似性以及用户的点击反馈,在与用户的不断交互中为用户提供多样化的排序结果. 该算法将在线和离线的思想进行融合,既可以利用主题聚类的优点,根据主题对候选文档集合进行简单的划分,大大加快了算法收敛速度,又能发挥在线排序算法的优点,利用用户点击反馈,获得对用户意图更为准确和完整的估计.实验结果表明,与其它在线排序算法相比,CRBA 算法收敛速度快,且具有适应现实搜索环境中文档数量大的特点.

关键词: 信息检索, 多样化, 聚类, 在线排序, 排序算法

Abstract:

In the information retrieval on the Internet,diversified ranking methods are used to provide top diverse results for users. This paper proposes an online diversified ranking algorithm CRBA based on clustering and user clicks. CRBA utilizes the similarity of documents to user feedbacks and provides diverse ranking results according to the continuous interaction of users. With the combination of the online method and the offline one,CRBA takes advantage of the topic clustering so that the convergence can be speeded up by preliminarily dividing candidate documents according to their topics. Moreover,it utilizes the merits of online ranking algorithms so that more accurate and complete estimation of users' purposes can be obtained from user clicks. Experimental results show that,as compared with the other online diversified ranking algorithms,CRBA converges more quickly and adapts well to the ranking of documents with a large amount.

Key words: information retrieval, diversification, clustering, online ranking, ranking algorithm