华南理工大学学报(自然科学版) ›› 2008, Vol. 36 ›› Issue (5): 43-47,52.
陈天 黄敏
Chen Tian Huang Min
摘要: 通常,当网页发生的变化超出包装器脚本的容忍度时,只能通过修改包装器脚本来重新定位待抽取数据.为此,文中提出了一种基于交叉定位的数据定位方法.该方法通过设立多个坐标系对待抽取数据进行定位,当一个坐标系失效后,其余坐标系能对失效坐标系进行修复并能正确抽取数据.实验结果表明,使用交叉定位的Web包装器能在不降低信息抽取性能的情况下,大幅提高包装器脚本对HTML页面变化的容忍度.