华南理工大学学报(自然科学版) ›› 2020, Vol. 48 ›› Issue (12): 125-134.doi: 10.12141/j.issn.1000-565X.200366
杨晓晖 梁笑
YANG Xiaohui LIANG Xiao
摘要:
为了更有效地检测微博垃圾用户,提出了一种新的基于多视图融合的方法。首 先,设计综合多视图信息的用户表征策略,分别构建用户行为、社交关系、微博内容 3 个视图对用户进行表征。针对现有方法未充分考虑用户粉丝及用户在社交网络中所处 环境的不足,引入粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区 的集群系数等新特征。然后,构建基于线性加权函数的多视图融合决策模型,将来自各 视图的分类结果进行线性加权融合,并通过最小化近似误差求得最优融合系数,进而得 到最终的分类结果。在微博真实数据集上的测试结果表明,该方法能够有效检测垃圾用 户,精确率和 F1 值较现有方法有明显提高,且在应对不平衡数据时表现出了更强的稳 定性。文中还分析了不同视图对最终检测效果的影响,结果表明用户社交关系视图的作 用最显著。
中图分类号: