华南理工大学学报(自然科学版) ›› 2014, Vol. 42 ›› Issue (7): 28-32.doi: 10.3969/j.issn.1000-565X.2014.07.005
王继奎1 李少波1,2†
Wang Ji- kui1 Li Shao- bo1,2
摘要: 将预处理后的 XML 数据当作文本信息采用词频-逆向文档频率( TF- IDF) 模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率( IDF) 的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的 F 测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.