摘要: 传统的分词器在微博文本上不能达到好的性能,主要归结于: ( 1) 缺少标注语料;
( 2) 存在大量的非规范化词. 针对这两类问题,文中提出一个分词和文本规范化的联合模
型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本
进行分词. 在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结
果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了 10. 35% .
中图分类号:
钱涛 姬东鸿 戴文华. 基于迁移的微博分词和文本规范化联合模型[J]. 华南理工大学学报(自然科学版), 2015, 43(11): 47-53.
Qian Tao Ji Dong-hong Dai Wen-hua. A Transition-Based Word Segmentation Model on Microblog
with Text Normalization[J]. Journal of South China University of Technology (Natural Science Edition), 2015, 43(11): 47-53.