华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (6): 109-117.
贾连印1 奚建清1 李孟娟2 游进国3 刘勇1 苗德成1
Jin Lian-Yin1 Xi Jian-Qing1 Li Meng-Juan2 You Jin-Guo3 Liu Yong1 Miao De-Cheng1
摘要: 传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie 的动态索引结构——DTI 结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair 算法.通过该算法可以直接得到allpair 连接的结果,不产生任何候选集,有效解决了高候选集产生的问题,克服了传统算法因生成并验证候选集而带来的开销.文中还研究了数据库中记录的顺序及记录中元素顺序对Dtrie-allpair 算法性能的影响,并在msweb、msnbc 两个数据集下对Dtrie-allpair 算法与All-pair、PPJoin 算法进行对比.结果表明: Dtrie-allpair 算法具有明显的优势,覆盖阈值较小时优势更明显; 对msweb数据集,阈值为2 时,Dtrie-allpair 算法的效率相对于All-pair、PPJoin 算法提高近两个数量级; 通过对数据集进行频率降序和长度升序组合预处理可大幅降低Dtrie-allpair 算法访问的trie 结点数量,从而显著提升性能.
中图分类号: