华南理工大学学报(自然科学版) ›› 2010, Vol. 38 ›› Issue (10): 74-78.doi: 10.3969/j.issn.1000-565X.2010.10.014

• 电子、通信与自动控制 • 上一篇    下一篇

脱机无约束手写体中文文本行的字符切分方法

李南希 金连文   

  1. 华南理工大学 电子与信息学院, 广东 广州 510640
  • 收稿日期:2009-12-29 修回日期:2010-03-03 出版日期:2010-10-25 发布日期:2010-10-25
  • 通信作者: 李南希(1981-),女,博士生,主要从事手写文字处理、图像处理和模式识别研究. E-mail:pumpkinlnx@gmail.com
  • 作者简介:李南希(1981-),女,博士生,主要从事手写文字处理、图像处理和模式识别研究.
  • 基金资助:

    NSFC-广东省自然科学联合基金资助项目(U0735004); 国家自然科学基金资助项目(60772116); 广东省自然科学基金重点资助项目(07118074)

Character Segmentation of Offline Unconstrained Handwritten Chinese Text Lines

Li Nan-xi  Jin Lian-wen   

  1. School of Electronic and Information Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China
  • Received:2009-12-29 Revised:2010-03-03 Online:2010-10-25 Published:2010-10-25
  • Contact: 李南希(1981-),女,博士生,主要从事手写文字处理、图像处理和模式识别研究. E-mail:pumpkinlnx@gmail.com
  • About author:李南希(1981-),女,博士生,主要从事手写文字处理、图像处理和模式识别研究.
  • Supported by:

    NSFC-广东省自然科学联合基金资助项目(U0735004); 国家自然科学基金资助项目(60772116); 广东省自然科学基金重点资助项目(07118074)

摘要: 提出了一种新的能对脱机无约束手写体中文文本行中的字符进行切分的方法.首先采用预切分算法产生一系列曲线候选切分路径;然后使用两个修正的二次判决分析函数对单字符的识别信息、文本行的几何信息进行融合,得到切分假设的置信度;最后利用动态规划算法搜索出最佳切分假设.使用哈尔滨工业大学多人手写真实文本数据库中的383个文本行对文中方法进行实验,在无语言模型的情况下,切分准确率可以达到89.70%,从而验证了所提字符切分方法的有效性.

关键词: 字符识别, 中文字符切分, 预切分, 置信度, 动态规划

Abstract:

Proposed in this paper is a novel method of character segmentation for offline unconstrained handwritten Chinese text lines.In this method,first,a series of curved candidate segmentation paths are generated via a pre-segmentation algorithm.Then,the recognition information of isolated characters and the geometric information of text lines are integrated by using two modified quadratic discriminant functions,from which the confidence of the segmentation hypothesis is obtained.Moreover,the optimal segmentation hypothesis is searched by employing a dynamic programming algorithm.Finally,the proposed method is tested using 383 text lines in the HIT-MW database without the help of any language models.The segmentation accuracy reaches 89.70%,which means that the proposed method is effective.

Key words: character recognition, Chinese character segmentation, pre-segmentation, confidence, dynamic programming