华南理工大学学报(自然科学版) ›› 2019, Vol. 47 ›› Issue (8): 84-95.doi: 10.12141/j.issn.1000-565X.180203
代翔1 黄细凤1 唐瑞2 蒋梦婷2 陈兴蜀2,3 王海舟2† 罗梁2
DAI Xiang1 HUANG Xifeng1 TANG Rui2 JIANG Mengting2 CHEN Xingshu2,3 WANG Haizhou2 LUO Liang2
摘要: 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上 的分层现象;LDA 建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数 K 的设定通常根据人的经验. 这些将造成建模结果出现包含多个子话题的混合话题情况. 针 对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对 LDA 模型分类结果粒 度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测. 首先 对 LDA 模型建模结果进行优化,对话题 - 单词分布与文档 - 单词分布两个矩阵进行过 滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话 题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题. 实验结 果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控 分析;与 Single-Pass 算法和 K-均值聚类算法相比,该算法获得的结果更具有有效性;K 的 选取策略对基于层次聚类的子话题检测算法具有鲁棒性.
中图分类号: