华南理工大学学报(自然科学版) ›› 2007, Vol. 35 ›› Issue (9): 90-94,106.
于江德 樊孝忠 尹继豪
Yu Jiang-de Fan xiao-zhong yin ji-hao
摘要: 科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS 算法学习模型参数,并选择局部、版面、词典和状态转移4 类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.