摘要: 多数在线垃圾邮件识别方法未有效区分用户针对不同邮件内容的感兴趣程度,导致垃圾邮件识别精度不高.文中提出了一种基于支持向量机的垃圾邮件在线识别新方法.即结合传统增量学习及主动学习理论,先通过随机选择代表样本寻找分类最不确定的样本进行人工标注; 接着引入用户兴趣度的概念,提出了新的样本标注模型和算法性能评价标准; 最后结合“轮盘赌” 方法将标注后样本加入训练样本集.多种对比实验表明,文中方法针对垃圾邮件识别精度高,样本训练及待标注样本选择速度快,具有较高的在线应用价值.
中图分类号:
王友卫 刘元宁 凤丽洲 朱晓冬. 基于用户兴趣度的垃圾邮件在线识别新方法[J]. 华南理工大学学报(自然科学版), 2014, 42(7): 21-27.
Wang You- wei Liu Yuan- ning Feng Li- zhou Zhu Xiao- dong. A Novel Online Spam Identification Method Based on User Interest Degree[J]. Journal of South China University of Technology (Natural Science Edition), 2014, 42(7): 21-27.