华南理工大学学报(自然科学版) ›› 2023, Vol. 51 ›› Issue (9): 90-98.doi: 10.12141/j.issn.1000-565X.230031

所属专题: 2023年计算机科学与技术

• 计算机科学与技术 • 上一篇    下一篇

一种面向中文拼写纠错的自监督预训练方法

苏锦钿1 余珊珊2 洪晓斌3   

  1. 1.华南理工大学 计算机科学与工程学院,广东 广州 510006
    2.广东药科大学 医药信息工程学院,广东 广州 510006
    3.华南理工大学 机械与汽车工程学院,广东 广州 510640
  • 收稿日期:2023-02-02 出版日期:2023-09-25 发布日期:2023-04-10
  • 通信作者: 余珊珊(1980-),女,博士,副教授,主要从事自然语言处理和深度学习等研究。 E-mail:susyu@139.com
  • 作者简介:苏锦钿(1980-),男,博士,副教授,主要从事自然语言处理、深度学习和程序语言设计等研究。E-mail:sujd@scut.edu.cn
  • 基金资助:
    国家自然科学基金资助项目(61936003);广东省基础与应用基础研究基金资助项目(2019B151502057)

A Self-Supervised Pre-Training Method for Chinese Spelling Correction

SU Jindian1 YU Shanshan2 HONG Xiaobin3   

  1. 1.School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, Guangdong, China
    2.College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, Guangdong, China
    3.School of Mechanical and Automotive Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China
  • Received:2023-02-02 Online:2023-09-25 Published:2023-04-10
  • Contact: 余珊珊(1980-),女,博士,副教授,主要从事自然语言处理和深度学习等研究。 E-mail:susyu@139.com
  • About author:苏锦钿(1980-),男,博士,副教授,主要从事自然语言处理、深度学习和程序语言设计等研究。E-mail:sujd@scut.edu.cn
  • Supported by:
    the National Natural Science Foundation of China(61936003);Guangdong Basic and Applied Basic Research Foundation(2019B151502057)

摘要:

预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问题。为了进一步提升BERT/RoBERTa/MacBERT等模型的拼写错误识别及纠正能力,提出一种面向中文拼写纠错的自监督预训练方法MASC。MASC在MLM的基础上将对被掩码字的正确值预测转换成对拼写错误字的识别和纠正。首先,MASC将MLM对字的掩码扩展为相应的全词掩码,目的是提升BERT对单词级别的语义表征学习能力;接着,利用混淆集从音调相同、音调相近和字形相近等方面对MLM中的被掩码字进行替换,并将MLM的训练目标更改为识别正确的字,从而增强了BERT的拼写错误识别及纠正能力;最后,在3个公开的CSC语料集sighan13、sighan14和sighan15上的实验结果表明,MASC可在不改变BERT/RoBERTa/MacBERT等模型结构的前提下进一步提升它们在下游CSC任务中的效果,并且消融实验也证明了全词掩码、音调和字形等信息的重要性。

预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问题。为了进一步提升BERT/RoBERTa/MacBERT等模型的拼写错误识别及纠正能力,提出一种面向中文拼写纠错的自监督预训练方法MASC。MASC在MLM的基础上将对被掩码字的正确值预测转换成对拼写错误字的识别和纠正。首先,MASC将MLM对字的掩码扩展为相应的全词掩码,目的是提升BERT对单词级别的语义表征学习能力;接着,利用混淆集从音调相同、音调相近和字形相近等方面对MLM中的被掩码字进行替换,并将MLM的训练目标更改为识别正确的字,从而增强了BERT的拼写错误识别及纠正能力;最后,在3个公开的CSC语料集sighan13、sighan14和sighan15上的实验结果表明,MASC可在不改变BERT/RoBERTa/MacBERT等模型结构的前提下进一步提升它们在下游CSC任务中的效果,并且消融实验也证明了全词掩码、音调和字形等信息的重要性。 

关键词: 中文拼写纠错, 文本纠错, 自然语言处理, 预训练语言模型, 深度学习, 自监督

Abstract:

Although the pre-trained language models like BERT/RoBERTa/MacBERT can learn the grammatical, semantic and contextual features of characters and words well through the language mask model MLM pre-training task, they lack the ability to detect and correct spelling errors. What’s more, they faces the problem of inconsistency between the pre-training and downstream fine-tuning stages in Chinese spelling correction CSC task. In order to further improve BERT/RoBERTa/MacBERT’s ability of spelling error detection and correction, this paper proposed a self-supervised pre-training method MASC for CSC, which converts the prediction of masked words into recognition and correction of misspelled words on the basis of MLM. First of all, MASC expands the normal word-masking in MLM to whole word masking, aiming to improve BERT’s ability of learning semantic representation at word-level. Then, the masked words are replaced with candidate words from the aspects of the same tone, similar tone and similar shape with the help of external confusion set, and the training target is changed to recognize the correct words, thus enhancing BERT’s ability of detecting and correcting spelling errors. Finally, the experimental results on three open CSC corpora, sighan13, sighan14 and sighan15, show that MASC can further improve the effect of the pre-training language model, i.e. BERT/RoBERTA/MacBERT, in downstream CSC tasks without changing their structures. Ablation experiments also confirm the importance of whole word masking, phonetic and glyph information.

Key words: Chinese spelling correction, text correction, natural language processing, pre-trained language model, deep learning, self-supervisory

中图分类号: