华南理工大学学报(自然科学版)

• 计算机科学与技术 •    下一篇

基于多尺度卷积网络的单幅图像的点法向估计

冼楚华1 刘欣1 李桂清1† 金烁2   

  1. 1. 华南理工大学 计算机科学与工程学院,广东 广州 510006; 2. 三角兽科技有限公司,北京 100029
  • 收稿日期:2018-10-31 出版日期:2018-12-25 发布日期:2018-11-01
  • 通信作者: 李桂清(1966-),男,博士,教授,博士生导师,主要从事计算机图形学、计算机动画、虚拟现实 CAGD 研究. E-mail:ligq@scut.edu.cn
  • 作者简介:冼楚华(1982-),男,博士,副教授,主要从事几何建模与处理、计算机图形学、智能图形处理、CAD/CAE 集成学研 究. E-mail:chhxian@ scut. edu. cn
  • 基金资助:
    国家自然科学基金资助项目(61572202);广东省自然科学基金资助项目(2015A030313220,2017A030313347); 浙江大学 CAD&CG 国家重点实验室开放性课题(A1715)

Normal Estimation from Single Monocular Images based on Multi-Scale Convolution Network

XIAN Chuhua1 LIU Xin1 LI Guiqing1 JIN Shuo2   

  1. 1. School of Computer Science and Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China; 2. Tricorn (Beijing) Technology Co. ,Ltd. ,Beijing 100029,China
  • Received:2018-10-31 Online:2018-12-25 Published:2018-11-01
  • Contact: 李桂清(1966-),男,博士,教授,博士生导师,主要从事计算机图形学、计算机动画、虚拟现实 CAGD 研究. E-mail:ligq@scut.edu.cn
  • About author:冼楚华(1982-),男,博士,副教授,主要从事几何建模与处理、计算机图形学、智能图形处理、CAD/CAE 集成学研 究. E-mail:chhxian@ scut. edu. cn
  • Supported by:
    Supported by the National Natural Science Foundation of China(61572202) and the Natural Sciene Foundation of Guangdong Province of China(2015A030313220,2017A030313347)

摘要: 单幅图片法向量估计是计算机图形学和计算机视觉研究的重要问题之一. 在缺 少其它三维信息的情况下,由单幅图像预测出对应法向量,对于三维场景重建,三维模型 识别,三维语义分割等具有重要意义. 为解决这一问题,文中使用多尺度的卷积网络结构, 对图像进行端到端的输出预测. 该网络由两个层级组成,第 1 层采用在 ImageNet 中性能 最好的 DenseNet 分类网络,对输入进行全局处理. 第 2 层级采用全卷积网络结构,对第 1 层级获得的输出进行进一步的精细预测. 实验结果表明,即使不使用其他预处理或后处理 步骤,文中提出的网络在单幅图像点法向预测方面仍能取得较理想的结果.

关键词: 法向量预测, 单幅图像, 卷积网络

Abstract: Normal estimation from monocular images is one of the most important issues in computer graphics and computer vision research. Short of three-dimensional information,the corresponding normal is predicted from the monocular images,which is of great significance for 3D scene reconstruction,3D model recognition,3D semantic segmentation,etc. In order to find the solution to the problem,this paper adopts a multi-scale convolutional net- work structure to predict an end-to-end output of the image. The network consists of two scales,the first layer uses the DenseNet classification network with the best performance in ImageNet to process the input globally. The second level uses a fully convolutional network to further fine-tune the output obtained from the first level. The experimen- tal results show that the network proposed in this paper can achieve better results in normal prediction of monocular image even without using other pre-processing or post-processing steps.

Key words: normal estimation, monocular image, convolutional neural network