华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (8): 39-45.

• 计算机科学与技术 • 上一篇    下一篇

自然场景图像中基于视觉显著性的文本区域检测

闵华清 郑华强 罗荣华   

  1. 华南理工大学 计算机科学与工程学院,广东 广州 510006
  • 收稿日期:2011-11-18 修回日期:2012-05-09 出版日期:2012-08-25 发布日期:2012-07-01
  • 通信作者: 罗荣华(1975-) ,男,博士,副教授,主要从事智能机器人、机器人视觉研究. E-mail:rhluo@scut.edu.cn E-mail:hqmin@ scut.edu.cn
  • 作者简介:闵华清(1956-) ,男,教授,博士生导师,主要从事智能机器人、数据库系统等的研究.
  • 基金资助:

    国家自然科学基金资助项目( 61005061, 60873078) ; 广东省自然科学基金资助项目( 9251064101000010) ; 广东省科技攻关项目( 2010B050400006,2010B010600016 ) ; 华南理工大学中央高校基本科研业务费专项资金资助项目( 2012ZZ0067)

Visual Saliency-Based Detection of Text Region in Natural Scene Images

Min Hua-qing  Zheng Hua-qiang  Luo Rong-hua   

  1. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China
  • Received:2011-11-18 Revised:2012-05-09 Online:2012-08-25 Published:2012-07-01
  • Contact: 罗荣华(1975-) ,男,博士,副教授,主要从事智能机器人、机器人视觉研究. E-mail:rhluo@scut.edu.cn E-mail:hqmin@ scut.edu.cn
  • About author:闵华清(1956-) ,男,教授,博士生导师,主要从事智能机器人、数据库系统等的研究.
  • Supported by:

    国家自然科学基金资助项目( 61005061, 60873078) ; 广东省自然科学基金资助项目( 9251064101000010) ; 广东省科技攻关项目( 2010B050400006,2010B010600016 ) ; 华南理工大学中央高校基本科研业务费专项资金资助项目( 2012ZZ0067)

摘要: 从自然场景图像中抽取文本信息有利于场景图像的内容分析. 文中根据图像中文本通常在局部区域具有显著性的特点,提出多尺度包围盒视觉显著性模型,并利用该模型设计一种可以融合边缘和纹理信息的候选文本检测方法. 首先在Lab 颜色空间构造基于边缘和纹理信息的图像同质性,并利用它将图像映射到同质性空间; 然后根据多尺度包围盒视觉显著性模型求Lab 颜色空间的同质性均值图像; 最后求同质映射图像与同质性均值图像的加权欧氏距离,将其作为显著性度量,以提取文本区域. 自然场景图像的实验表明: 与单纯利用边缘检测或同质性映射进行文本检测的方法相比,文中提出的方法能够更好地抑制背景的干扰,这有利于进一步将文本区域与背景剥离,进行更精确的文本定位.

关键词: 文本检测, 视觉显著性, 同质性, 图像分割

Abstract:

Extracting text information from images captured in natural scenes is helpful for the content analysis of images. In this paper,according to the fact that the texts in images is often salient in local regions,a novel visual saliency model with multi-scale bounding box is proposed,based on which a new method combining the edge and texture information is designed for the candidate text detection. In this method,first,Lab color space is used to construct the edge and textural information-based image homogeneity,and by using this characteristic,the image is mapped into the homogeneity domain. Then,the proposed model is employed to generate average homogeneity images. Finally,the weighted Euclidean distance between the homogeneity image and the average homogeneity image is determined,and is taken as the saliency measure to extract text regions. Experimental results of natural scene images show that,as compared with the text detection methods based on the edge or the homogeneity,the proposed method can better restrain the background noise,which helps to further segment the text regions from the background and achieve more accurate text location.

Key words: text detection, visual saliency, homogeneity, image segmentation