华南理工大学学报(自然科学版) ›› 2018, Vol. 46 ›› Issue (8): 122-129.doi: 10.3969/j.issn.1000-565X.2018.08.017
刘慧婷1,2,凌超1,2
LIU Huiting1,2 LING Chao1, 2
摘要: 摘 要:当前的词嵌入模型多数基于分布假设理论, 这类模型将单词作为最基本语义单元, 然后利用词的外部上下文信息学习词表示. 然而, 在类似于汉语的语言中,单词经常由多个字符组成, 这些字符包含了丰富的内部信息, 同时单词的语义也和这些字符的语义息息相关. 考虑到当前常用词模型均忽略了字符信息,本文以中文为例, 提出单词与字符协同学习模型. 并且, 为了解决汉语中存在单字符多语义和多字符单语义的情况, 本文提出基于多语义字符与单词协同学习模型和多字符单语义选择方法. 最后,使用词相似任务和类比推理任务对提出的新模型进行评估, 结果显示本文提出的模型均优于其他词嵌入模型.
中图分类号: