华南理工大学学报(自然科学版) ›› 2010, Vol. 38 ›› Issue (7): 50-55.doi: 10.3969/j.issn.1000-565X.2010.07.009
蒋昌金1 彭宏1 陈建超2 马千里1
Jiang Chang-jin1 Peng Hong1 Chen Jian-chao2 Ma Qian-li 1
摘要: 为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.