华南理工大学学报(自然科学版) ›› 2017, Vol. 45 ›› Issue (3): 54-60.doi: 10.3969/j.issn.1000-565X.2017.03.008
李静远1 丘志杰1 刘悦1 程学旗1 任彦2
LI Jing-yuan1 QIU Zhi-jie1 LIU Yue1 CHENG Xue-qi1 REN Yan2
摘要: 专题文章集合是一些拥有相似背景知识的文章集合. 为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析( LDA) 子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度. 在微信公众账号文章上的系列实验证明,BLDA 算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA 算法,其中主题召回率提高了170%,Purity 聚类指标提高了143%,NMI 聚类指标提高了160%.