华南理工大学学报(自然科学版) ›› 2021, Vol. 49 ›› Issue (1): 18-28.doi: 10.12141/j.issn.1000-565X.200489
所属专题: 2021年计算机科学与技术
刘勘1 黄哲英2
LIU Kan1 HUANG Zheying2
摘要: 新冠疫情暴发以来,相关谣言时有传播,但传统的谣言识别模型却难以有效判 别疫情谣言,因为相较于大量历史谣言数据,疫情谣言的数量还不足以训练出良好的分 类器。因此,建立一个以少量谣言数据为基础的疫情谣言识别模型紧迫且重要。针对训 练数据量不足的问题,为了提高疫情谣言鉴别效果,文中提出了一种基于文本增强和生 成对抗网络 ( GAN) 的疫情谣言识别方法。首先,分析疫情谣言的文本特征,提取能 表征疫情谣言的特征词; 然后,基于 GAN 构建疫情谣言生成模型,将不含疫情谣言特 征的历史谣言,利用疫情谣言特征词库进行文本增强,并生成大量含有疫情谣言特征的 新谣言数据; 最后,在疫情谣言中补充新生成的谣言数据,从而训练出更准确的疫情谣 言分类模型。实验结果表明,使用 GAN 扩充训练集后,识别效果提高了 3 个百分点, 明显优于传统机器学习和深度学习算法,为重大突发疫情事件中谣言的识别提供了新的 途径。
中图分类号: