华南理工大学学报(自然科学版) ›› 2017, Vol. 45 ›› Issue (3): 82-88.doi: 10.3969/j.issn.1000-565X.2017.03.012
陈俊颖 周顺风 闵华清
CHEN Jun-ying ZHOU Shun-feng MIN Hua-qing
摘要: 文中针对当下愈发泛滥的垃圾邮件,分别使用朴素贝叶斯分类和支持向量机分类法对当前日益泛滥的垃圾邮件进行识别、分类,将“词频- 筛”混合特征选择方法应用于分类器模型中,以提高分类器的识别性能. 同时,通过考虑更全面的分类概率情况,改进朴素贝叶斯分类模型,进一步提升朴素贝叶斯分类器的识别性能. 最后通过实验得到了该垃圾邮件识别系统的准确率、召回率和F1值等分类识别性能指标. 实验结果表明,“词频- 筛”混合特征选择方法能有效提高垃圾邮件分类器的识别性能,而且使用成本敏感方法的分类输出调节模块也能大大降低分类器将正常邮件误判为垃圾邮件的概率,因此,文中设计的垃圾邮件识别系统具有较强的实用性,可以在实际工作、生活中使用.
中图分类号: