华南理工大学学报(自然科学版) ›› 2021, Vol. 49 ›› Issue (1): 10-17.doi: 10.12141/j.issn.1000-565X.200506
所属专题: 2021年计算机科学与技术
IKA Novita Dewi 蔡晓玲 刘晓锋 董守斌†
IKA Novita Dewi CAI Xiaoling LIU Xiaofeng DONG Shoubin
摘要: 为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关 键词和注意力机制的药物相互关系 ( DDI) 抽取模型 KA-BERT。首先基于卡方检验和 文档频率获取每个类别的关键词,然后在预训练 BERT 模型中加入关键词与药物对的位 置编码,以增加样例的差异性,并通过注意力机制学习关键词与句子中其他词的分布信 息。针对药物关系抽取任务中负样例较多的问题,文中提出了基于规则和模式的负样例 过滤方法,以有效降低正负样本比例。与现有基于 CNN、基于 LSTM 和基于 BERT 的 DDI 提取模型实验结果的对比表明,KA-BERT 模型能够很好地提高药物关系的提取效 果,证明了该模型的有效性。在化学 - 蛋白质相互关系抽取上的测试结果表明, KA-BERT模型的准确率、召回率和 F1 值均有明显的提升,证明了该模型的有效性和通 用性。