华南理工大学学报(自然科学版) ›› 2022, Vol. 50 ›› Issue (6): 37-48,70.doi: 10.12141/j.issn.1000-565X.210124
所属专题: 2022年计算机科学与技术
陈可嘉 郑晶晶
CHEN Kejia ZHENG Jingjing
摘要: 为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,本文提出基于种子约束LDA(Latent Dirichlet Allocation)的产品属性提取方法。首先利用TF-IDF(Term Frequency–Inverse Document Frequency)算法自动提取关键词,作为属性种子集;其次通过文档初次重组和二次重组的方式,解决长文本多属性类共现问题和短文本稀疏性问题,并提高文档重组率;然后应用must-link和cannot-link两种种子约束来定义概率扩缩值,影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上。本文从属性类别、属性词等方面进行定性分析,从准确率、熵值、纯度等方面进行定量分析,验证本文方法的优势。
中图分类号: