华南理工大学学报(自然科学版) ›› 2016, Vol. 44 ›› Issue (5): 130-136.doi: 10.3969/j.issn.1000-565X.2016.05.020
陈兴蜀 高悦 江浩 杜敏 王海舟† 何建云
CHEN Xing-shu GAO Yue JIANG Hao DU Min WANG Hai-zhou HE Jian-yun
摘要: 为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题. 基于发现的热点话题,文中提出了基于在线 LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态. 实验结果表明,HTOLDA 模型对各个时间片的论坛数据集的建模能力优于 OLDA 模型,并能够有效地对论坛中的热点话题进行演化跟踪.
中图分类号: