华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (5): 43-47,52.

• 计算机科学与技术 • 上一篇    下一篇

Web信息抽取中的数据交叉定位

陈天 黄敏   

  1. 华南理工大学 软件学院, 广东 广州 510006
  • 收稿日期:2007-06-04 修回日期:2007-09-30 出版日期:2008-05-25 发布日期:2008-05-25
  • 通信作者: 陈天(1978-),男,博士,讲师,主要从事Web信息抽取、中文信息处理、教育信息化方面的研究. E-mail:chentian@scut.edu.cn
  • 作者简介:陈天(1978-),男,博士,讲师,主要从事Web信息抽取、中文信息处理、教育信息化方面的研究.
  • 基金资助:

    广东省科技计划项目(2006B11301001);广东省国际科技合作计划项目(2007A050100026);广东省工业科技攻关计划项目(2006B80407001)

Data Cross-Locating in Web Information Extraction

Chen Tian  Huang Min   

  1. School of Software Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China
  • Received:2007-06-04 Revised:2007-09-30 Online:2008-05-25 Published:2008-05-25
  • Contact: 陈天(1978-),男,博士,讲师,主要从事Web信息抽取、中文信息处理、教育信息化方面的研究. E-mail:chentian@scut.edu.cn
  • About author:陈天(1978-),男,博士,讲师,主要从事Web信息抽取、中文信息处理、教育信息化方面的研究.
  • Supported by:

    广东省科技计划项目(2006B11301001);广东省国际科技合作计划项目(2007A050100026);广东省工业科技攻关计划项目(2006B80407001)

摘要: 通常,当网页发生的变化超出包装器脚本的容忍度时,只能通过修改包装器脚本来重新定位待抽取数据.为此,文中提出了一种基于交叉定位的数据定位方法.该方法通过设立多个坐标系对待抽取数据进行定位,当一个坐标系失效后,其余坐标系能对失效坐标系进行修复并能正确抽取数据.实验结果表明,使用交叉定位的Web包装器能在不降低信息抽取性能的情况下,大幅提高包装器脚本对HTML页面变化的容忍度.

关键词: Web信息抽取, 信息检索, 包装器, 交叉定位

Abstract:

In general,when the changes of webpage exceed the tolerance of the wrapper script,the script has to be modified to re-locate the data.In order to solve this problem,this paper presents a new cross-locating method of data,where multi-coordinate are set up to locate the needed data.When one coordinate fails to work,others can repair it automatically and extrat data correctly.Experimental results show that the Web wrapper based on the cross-locating method can greatly improve the tolerance of wrapper script to HTML webpage without decreasing the information-extracting performance.

Key words: Web information extraction, information retrieval, wrapper, cross-locating