基于多尺度注意力导向网络的单目图像深度估计

doi:10.12141/j.issn.1000-565X.200083

华南理工大学学报（自然科学版） ›› 2020, Vol. 48 ›› Issue (12): 52-62.doi: 10.12141/j.issn.1000-565X.200083

• 电子、通信与自动控制 • 上一篇下一篇

基于多尺度注意力导向网络的单目图像深度估计

刘杰平温竣文梁亚玲^†

华南理工大学电子与信息学院，广东广州 510640

收稿日期:2020-02-26 修回日期:2020-04-14 出版日期:2020-12-25 发布日期:2020-12-01
通信作者: 梁亚玲(1977-) ，女，博士，副教授，主要从事机器学习、图像处理等研究。 E-mail:ylliang@scut.edu.cn
作者简介:刘杰平(1961-)，女，博士，副教授，主要从事图像、视频、3D信号处理等研究。E-mail: eeliujp@scut.edu.cn
基金资助:
国家自然科学基金资助项目 ( 61701181，61471173) ; 广东省自然科学基金资助项目 ( 2017A030325430)

Monocular Image Depth Estimation Based on Multi-Scale Attention Oriented Network

LIU Jieping WEN Junwen LIANG Yaling

School of Electronic and Information Engineering，South China University of Technology，Guangzhou 510640，Guangdong，China

Received:2020-02-26 Revised:2020-04-14 Online:2020-12-25 Published:2020-12-01
Contact: 梁亚玲(1977-) ，女，博士，副教授，主要从事机器学习、图像处理等研究。 E-mail:ylliang@scut.edu.cn
About author:刘杰平(1961-)，女，博士，副教授，主要从事图像、视频、3D信号处理等研究。E-mail: eeliujp@scut.edu.cn
Supported by:
Supported by the National Natural Science Foundation of China ( 61701181，61471173) and the Natural Science Foundation of Guangdong Province ( 2017A030325430)

摘要/Abstract

摘要：

针对现有基于深度学习的单目图像深度估计算法存在的空间分辨率低和边缘模糊等问题，提出了一种基于多尺度注意力导向网络的单目图像深度估计算法。首先设计了一个端到端的编码器－解码器模型，编码器以多个尺度进行特征提取。为了保证更好的深度连续性，解码器结合残差学习以及通道注意力融合，对提取的多尺度特征逐步优化细节以及场景结构。考虑到多次下采样会导致深度图细节的丢失，设计了边界增强模块，通过引入空间注意力，提升不同物体的类间对比度以增强图像的边界细节。最后，优化模块融合来自解码器和边界增强模块的多尺度特征，生成深度图像。实验结果表明，与当前主流的算法相比，文中算法生成的深度图像质量得到了提高，表现出了更细致的物体轮廓信息，在客观指标和主观效果上均有良好的表现。

关键词: 深度学习, 单目图像深度估计, 多尺度注意力导向网络, 多尺度特征, 通道注意力融合

Abstract:

Aiming at the problems of low spatial resolution and unclear edges in the existing depth estimation algorithms of monocular images based on deep learning，a depth estimation algorithm of monocular images based on multi-scale attention-oriented network was put forward． Firstly，an end-to-end encoder-decoder model was designed，and the encoder extracts features at multiple scales． To ensure better depth continuity，the decoder gradually optimize details and scene structure of extracted multi-scale features by combining residual learning with channel attention fusion． Considering the loss of depth details caused by multiple down-sampling，a boundary enhancement module was designed． By introducing spatial attention，the inter-class contrast of different objects was improved to enhance the boundary details of the image． Finally，the optimization module fuses multi-scale features from the decoder and the boundary enhancement module to generate a depth image． Experimental results show that，compared with the current mainstream algorithms，the depth image generated by the algorithm has improved quality，showing more detailed object contour information and good performance in both objective indicators and subjective effects．

Key words: deep learning, monocular image depth estimation, multi-scale attention-oriented network, multi-scale feature, channel attention fusion

中图分类号:

TP391

刘杰平温竣文梁亚玲. 基于多尺度注意力导向网络的单目图像深度估计[J]. 华南理工大学学报（自然科学版）, 2020, 48(12): 52-62.

LIU Jieping, WEN Junwen, LIANG Yaling. Monocular Image Depth Estimation Based on Multi-Scale Attention Oriented Network[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48(12): 52-62.

[1]	李方, 郭炜森, 张平, 等. 基于时空双细胞状态的轴承剩余使用寿命预测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 69-81.
[2]	苏锦钿, 余珊珊, 洪晓斌. 一种面向中文拼写纠错的自监督预训练方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 90-98.
[3]	李家春, 李博文, 林伟伟. AdfNet：一种基于多样化特征的自适应深度伪造检测网络[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 82-89.
[4]	郭恩强, 符锌砂. 基于特征相似性学习的抛洒物检测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 30-41.
[5]	赵建东, 焦岚馨, 赵志敏, 等. 考虑侧向车换道影响的理论和数据组合驱动的车辆跟驰模型[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 10-19.
[6]	叶峰, 陈彪, 赖乙宗. 基于特征空间嵌入的对比知识蒸馏算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 13-23.
[7]	侯力玮, 王恒升, 邹浩然. 基于深度学习的玻璃基板铲起过程作用力预测[J]. 华南理工大学学报(自然科学版), 2022, 50(8): 71-81.
[8]	莫建文, 朱彦桥, 袁华, 等. 基于神经元正则和资源释放的增量学习[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 71-79,90.
[9]	陆璐, 钟文煜, 吴小坤. 基于多尺度视觉Transformer的图像篡改定位[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 10-18.
[10]	张勤, 胡嘉辉, 任海林. 饲喂辅助机器人的智能推料方法与试验研究[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 111-120.
[11]	杨春玲, 凌茜, 吕泽宇. 特征域多假设预测视频压缩感知重构神经网络[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 80-90.
[12]	沃焱, 梁籍云, 韩国强. 基于度量学习的跨模态人脸检索方法[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 1-9.
[13]	赵建东, 朱丹, 刘佳欣. 基于时间序列分解与门控循环单元的地铁换乘客流预测 [J]. 华南理工大学学报(自然科学版), 2022, 50(5): 22-31.
[14]	杨春玲杨雅静. 基于多尺度特征逐层融合深度神经网络的无参考图像质量评价方法研究[J]. 华南理工大学学报(自然科学版), 2022, 50(4): 81-89,141.
[15]	苏锦钿洪晓斌余珊珊. 基于多模型集成的语义文本相似性判断[J]. 华南理工大学学报(自然科学版), 2022, 50(4): 1-9.

基于多尺度注意力导向网络的单目图像深度估计

Monocular Image Depth Estimation Based on Multi-Scale Attention Oriented Network

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价