华南理工大学学报(自然科学版) ›› 2010, Vol. 38 ›› Issue (7): 33-38.doi: 10.3969/j.issn.1000-565X.2010.07.006

• 计算机科学与技术 • 上一篇    下一篇

基于三角不等式原理的数据匹配方法

武云鹏 包卫东 张维明   

  1. 国防科学技术大学 信息系统与管理学院, 湖南 长沙 410073
  • 收稿日期:2009-09-03 修回日期:2010-03-13 出版日期:2010-07-25 发布日期:2010-07-25
  • 通信作者: 武云鹏(1981-),男,博士生,主要从事数据匹配研究. E-mail:ypwu@nudt.edu.cn
  • 作者简介:武云鹏(1981-),男,博士生,主要从事数据匹配研究.
  • 基金资助:

    国家自然科学基金资助项目(70701038, 60902094)

Data Matching Method Based on Triangle Inequality Theorem

Wu Yun-peng  Bao Wei-dong  Zhang Wei-ming   

  1. College of Information Systems and Management,National University of Defense Technology,Changsha 410073,Hunan,China
  • Received:2009-09-03 Revised:2010-03-13 Online:2010-07-25 Published:2010-07-25
  • Contact: 武云鹏(1981-),男,博士生,主要从事数据匹配研究. E-mail:ypwu@nudt.edu.cn
  • About author:武云鹏(1981-),男,博士生,主要从事数据匹配研究.
  • Supported by:

    国家自然科学基金资助项目(70701038 60902094)

摘要: 数据匹配是数据库领域的一个重要研究方向.文中提出了一种Metrics空间下的数据匹配新方法.该方法基于三角不等式原理,对数据进行分类匹配,并引入多重循环机制提高匹配效率.文中还分析了该方法的复杂度.实验结果表明,该方法能够充分利用数据特性,有效提高数据匹配的精确率、正确率及回归率.

关键词: 数据匹配, metrics空间, 相对距离, 弱相似性

Abstract:

Data matching is an important research direction in database field. In this paper,a data matching method working in the metrics space is proposed,which classifies and matches data based on the triangle inequality theorem,and improves the matching efficiency by introducing a multiple iterative mechanism. Afterwards,the complexity of the method is analyzed and the efficiency of the method is verified by experiments. The results indicate that the proposed method makes full use of data characteristics,thus effectively improving the accuracy,correctness and recall rate of data matching.

Key words: data matching, metrics space, relative distance, weak similarity