基于多兴趣对比的深度强化学习推荐方法

doi:10.12141/j.issn.1000-565X.240088

华南理工大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (9): 11-21.doi: 10.12141/j.issn.1000-565X.240088

基于多兴趣对比的深度强化学习推荐方法

刘慧婷¹^,2 刘绍雄¹ 王佳乐¹^,3 赵鹏¹

1.安徽大学计算机科学与技术学院，安徽合肥 230601;

2.合肥综合性国家科学中心人工智能研究院，安徽合肥 230088；

3.安徽大学石溪学院，安徽合肥 230039

出版日期:2025-09-25 发布日期:2025-04-27

Multi-Interest Oriented Contrastive for Deep Reinforcement Learning-based Recommendation

LIU Huiting^1,2 LIU Shaoxiong¹ WANG Jiale^1,3 ZHAO Peng¹

1. School of Computer Science and Technology, Anhui University, Hefei 230601, Anhui, China;

2. Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, Hefei 230088, Anhui, China;

3. Stony Brook Institute, Anhui University, Hefei 230039, Anhui, China

Online:2025-09-25 Published:2025-04-27

摘要/Abstract

摘要：

深度强化学习（DRL）算法被广泛应用到推荐系统中，用于动态建模用户兴趣并最大化用户的累积收益。然而，用户反馈稀疏问题成为基于DRL的推荐方法面临的一个重要挑战。对比学习作为一种自监督学习方法可以构造用户兴趣的多个视角，增强用户兴趣的表示的同时缓解用户反馈数据稀疏的问题。现有的对比学习方法通常利用基于启发式的增强策略，导致关键信息的丢失，且未充分利用异构的交互信息。为了解决这些问题，本文提出了基于多兴趣对比的深度强化学习推荐方法（MOCIR）。具体而言，本文所提出的模型包括一个对比表示模块和一个策略网络模块。对比表示模块利用异构信息网络（HINs）来建模用户不同方面的局部兴趣，并使用原始数据来建模用户的全局兴趣，然后利用全局和局部兴趣作为对比学习的一对正负样本对，从而有效地捕捉用户的兴趣。策略网络用于在聚合用户状态表示后进行推荐，策略网络和对比模块交替的更新。通过在三个基准数据集上进行实验证明，本文提出的方法相较于最先进的方法在提高推荐模型性能方面取得了显著的改进。

关键词: 多兴趣, 强化学习, 对比学习, 异质信息网络

Abstract:

Deep reinforcement learning (DRL) algorithms have been incorporated into recommendation settings for dynamically modeling the interests of users and maximizing cumulative rewards. However, data sparsity poses a challenge to most DRL-based interactive recommendation methods. A good view is that contrastive learning can address the data sparsity problem. However, most existing contrastive learning methods typically exploit heuristic-based augmentation strategies, resulting in the loss of critical information and failure to make full use of heterogeneous information. To address these shortcomings, we propose multi-interest oriented contrastive for deep reinforcement learning-based recommendations (MOCIR). In particular, we utilize heterogeneous information networks (HINs) to model different aspects of a user’s local interests and utilize original data to model the user’s global interests. The proposed method comprises a contrastive learning module and policy network. The contrastive learning module uses metapaths in the HINs to find neighbors for items with different aspects, aggregates them to obtain item representations, and then utilizes both the global and local interests as positive pairs for contrastive learning, thereby effectively capturing the user’s interest. A policy network is used to make recommendations after the user state representation is aggregated, and the contrastive learning module and the policy network are jointly updated. The proposed method is superior to its state-of-the-art counterparts, as demonstrated by experiments on three benchmark datasets.

Key words: multi-interest, reinforcement learning, contrastive learning, heterogeneous information network

刘慧婷, 刘绍雄, 王佳乐, 等. 基于多兴趣对比的深度强化学习推荐方法[J]. 华南理工大学学报(自然科学版), 2025, 53(9): 11-21.

LIU Huiting, LIU Shaoxiong, WANG Jiale, et al. Multi-Interest Oriented Contrastive for Deep Reinforcement Learning-based Recommendation[J]. Journal of South China University of Technology(Natural Science Edition), 2025, 53(9): 11-21.

[1]	陆璐, 万童. 一种基于路径表示和预训练模型的软件漏洞检测方法[J]. 华南理工大学学报(自然科学版), 2025, 53(5): 56-65.
[2]	蔡晓东, 董丽芳, 黄业洋, 周丽. 基于文本-视觉和信息熵最小化的对比学习模型[J]. 华南理工大学学报(自然科学版), 2025, 53(3): 50-56.
[3]	程小华, 王泽夫, 曾君, 等. 基于EA-RL算法的分布式能源集群调度方法[J]. 华南理工大学学报(自然科学版), 2025, 53(1): 1-9.
[4]	周璇, 莫浩华, 闫军威. 基于改进H-AC算法的冷源系统节能优化控制策略[J]. 华南理工大学学报(自然科学版), 2025, 53(1): 21-31.
[5]	罗玉涛, 薛志成. 面向自动驾驶的多任务辅助驾驶策略学习方法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 31-40.
[6]	王福建, 程慧玲, 马东方, 等. 基于深度逆向强化学习的城市车辆路径链重构[J]. 华南理工大学学报(自然科学版), 2023, 51(7): 120-128.
[7]	叶峰, 陈彪, 赖乙宗. 基于特征空间嵌入的对比知识蒸馏算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 13-23.
[8]	陈锋, 毛豪滨, 蔡吉玲, 等. 面向低延时实时视频的多维跨层带宽预测[J]. 华南理工大学学报(自然科学版), 2023, 51(11): 18-27.
[9]	许伦辉, 余佳芯, 裴明阳, 等. 基于几何路网结构和强化学习的车辆重定位策略[J]. 华南理工大学学报(自然科学版), 2023, 51(10): 99-109.
[10]	王高, 陈晓鸿, 柳宁, 等. 一种基于视角选择经验增强算法的机器人抓取策略[J]. 华南理工大学学报(自然科学版), 2022, 50(9): 126-137.
[11]	闫军威黄琪周璇. 基于Double-DQN的中央空调系统节能优化运行[J]. 华南理工大学学报（自然科学版）, 2019, 47(1): 135-144.
[12]	邓卓明刘明波. 求解多目标暂态电压紧急控制的强化学习方法[J]. 华南理工大学学报（自然科学版）, 2015, 43(12): 9-17.
[13]	徐玉滨陈佳美马琳. 基于Q学习的WLAN/WIMAX接入控制网络选择策略[J]. 华南理工大学学报（自然科学版）, 2013, 41(8): 41-46,60.
[14]	郝钏钏方舟李平. 采用经验复用的高效强化学习控制方法[J]. 华南理工大学学报(自然科学版), 2012, 40(6): 70-75.
[15]	余涛胡细兵刘靖. 基于多步回溯Q（λ）学习算法的多目标最优潮流计算[J]. 华南理工大学学报（自然科学版）, 2010, 38(10): 139-145.

基于多兴趣对比的深度强化学习推荐方法

Multi-Interest Oriented Contrastive for Deep Reinforcement Learning-based Recommendation

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价