华南理工大学学报(自然科学版) ›› 2017, Vol. 45 ›› Issue (3): 54-60.doi: 10.3969/j.issn.1000-565X.2017.03.008

• 计算机科学与技术 • 上一篇    下一篇

抑制背景噪声的LDA 子话题挖掘算法

李静远1 丘志杰1 刘悦1 程学旗1 任彦2   

  1. 1. 中国科学院 计算技术研究所//中国科学院 网络数据科学与技术重点实验室,北京 100190;2. 国家计算机网络应急技术处理协调中心,北京 100029
  • 收稿日期:2016-12-07 出版日期:2017-03-25 发布日期:2017-02-02
  • 通信作者: 李静远( 1982-) ,男,高级工程师,主要从事在线社会网络信息传播与信息安全研究. E-mail:lijingyuan@ict.ac.cn
  • 作者简介:李静远( 1982-) ,男,高级工程师,主要从事在线社会网络信息传播与信息安全研究.
  • 基金资助:
    国家自然科学基金资助项目( 61303244, 61572473, 61572469, 61402442, 61402022, 61370132) ; 国家242 信息安全计划项目( 2015F114)

LDA Subtopic Detection Algorithm with Background Noise Restraint

LI Jing-yuan1 QIU Zhi-jie1 LIU Yue1 CHENG Xue-qi1 REN Yan2   

  1. 1.Institute of Computing Technology//Key Laboratory of Network Data Science and Technology,Chinese Academy of Sciences,Beijing 100190,China; 2.National Computer Network Emergency Response Technical Team Coordination Center of China,Beijing 100029,China
  • Received:2016-12-07 Online:2017-03-25 Published:2017-02-02
  • Contact: 李静远( 1982-) ,男,高级工程师,主要从事在线社会网络信息传播与信息安全研究. E-mail:lijingyuan@ict.ac.cn
  • About author:李静远( 1982-) ,男,高级工程师,主要从事在线社会网络信息传播与信息安全研究.
  • Supported by:
    Supported by the National Natural Science Foundation of China( 61303244,61572473,61572469,61402442, 61402022, 61370132) and the National 242 Project of Information Security ( 2015F114)

摘要: 专题文章集合是一些拥有相似背景知识的文章集合. 为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析( LDA) 子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度. 在微信公众账号文章上的系列实验证明,BLDA 算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA 算法,其中主题召回率提高了170%,Purity 聚类指标提高了143%,NMI 聚类指标提高了160%.

关键词: 子话题挖掘, 线性判别分析, 背景噪声抑制

Abstract: Special article set is a collection of articles with common background knowledge.In order to more effectively detect the subtopics form special article set with complex information correlation,an LDA subtopic detection algorithm with background noise restraintnamed BLDA is proposed,which improves the precision of subtopic detection from article set by firstly extracting the common background knowledge and then reproducing the keywords in each iteration step.By a series of experiments on a set of WeChat documents from public accounts,it is proved that the detection results obtained by BLDA are much better than those obtained by LDA,with a topic recall rate increment of about 170%,a Purity index increment of 143% and a NMI index increment of 160%.

Key words: subtopic mining, linear discriminant analysis, background noise restraint