基于多尺度视觉Transformer的图像篡改定位

doi:10.12141/j.issn.1000-565X.210603

华南理工大学学报(自然科学版) ›› 2022, Vol. 50 ›› Issue (6): 10-18.doi: 10.12141/j.issn.1000-565X.210603

所属专题： 2022年计算机科学与技术

基于多尺度视觉Transformer的图像篡改定位

陆璐钟文煜吴小坤†

华南理工大学计算机科学与工程学院，广东广州 510640

收稿日期:2021-09-17 修回日期:2021-10-27 出版日期:2022-06-25 发布日期:2021-11-08
通信作者: 吴小坤 (1980-)，女，教授，主要从事数据分析和信息可视化研究 E-mail:wuxiaokun@ scut. edu. cn
作者简介:陆璐 (1971-)，男，教授，主要从事计算机视觉和软件质量保障研究
基金资助:
国家社科基金重大项目;中山市产学研重大项目

Image tampering localization based on mutil-scale transformer

LU Lu ZHONG WenyuWU Xiaokun

School of Computer Science and Engineering，South China University of Technology，Guangzhou 510640，Guangdong，China

Received:2021-09-17 Revised:2021-10-27 Online:2022-06-25 Published:2021-11-08
Contact: 吴小坤 (1980-)，女，教授，主要从事数据分析和信息可视化研究 E-mail:wuxiaokun@ scut. edu. cn
About author:陆璐 (1971-)，男，教授，主要从事计算机视觉和软件质量保障研究
Supported by:
the National Social Science Foundation Key Project of China;the Major Program of the Zhongshan Industry-Academia-Research Fund

摘要/Abstract

摘要： 随着数字图像处理技术不断发展，图像篡改不再局限于图像拼接等单一手段，而是通过图像编辑软件后处理隐藏恶意篡改痕迹，导致现有传统算法和基于深度学习的定位方法效果不佳。针对现有图像篡改算法定位精度不高的问题，本文提出一种端到端基于多尺度视觉Transformer的图像篡改定位网络，该网络融合Transformer和卷积编码器提取篡改区域与非篡改区域的特征差异。多尺度Transformer对不同尺寸图像块序列的空间信息进行建模，从而使网络适应各种形状大小的篡改区域。实验结果表明，本文所提出的算法在CASIA和NIST2016测试集的F1分数分别为0.431和0.877,AUC值分别为0.728和0.971，相比当前的主流算法具有较为明显的性能提升。而且，本文所提算法在应对JPEG压缩攻击具有较强的鲁棒性。

关键词: 深度学习, 视觉Transformer, 图像篡改, 纵横注意力

Abstract: With the continuous development of digital image processing technology, image tampering is no longer limited to a single method such as image splicing. The traces of malicious tampering are hidden through the post-processing of the image editing software, which leads to poor results of traditional image forgery detection algorithms and the tampering localization methods based on deep learning. Aiming at the problem of low accuracy of existing image tampering algorithms, an end-to-end image tampering location network based on Multi-Scale Visual Transformer is proposed. The network combines a transformer and a convolutional encoder to extract the feature difference between the tampered area and the non-tampered area. Multi-Scale Transformer models the spatial information of image block sequences of different sizes, so that the network can adapt to tampered areas of various shapes and sizes. Experimental results show that the F1 and AUC scores of the proposed algorithm in the CASIA and NIST2016 test sets are 0.431、0.877、0.728 and 0.971, respectively, which are significantly improved co- mpared to the existing mainstream algorithms. Moreover, the algorithm proposed in this paper is robust against JPEG compression attacks.

Key words: Deep learning, visual Transformer, image tampering, vertical and horizontal attention

中图分类号:

TP391

陆璐, 钟文煜, 吴小坤. 基于多尺度视觉Transformer的图像篡改定位[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 10-18.

LU Lu, ZHONG Wenyu, WU Xiaokun. Image tampering localization based on mutil-scale transformer[J]. Journal of South China University of Technology(Natural Science Edition), 2022, 50(6): 10-18.

[1]	胡习之, 崔博非, 王琴, 等. 基于记忆泊车场景的视觉SLAM算法[J]. 华南理工大学学报(自然科学版), 2024, 52(6): 1-11.
[2]	刘昊, 元辉, 陈晨, 高伟. 基于采样的点云几何编码框架[J]. 华南理工大学学报(自然科学版), 2024, 52(6): 148-156.
[3]	杨春玲, 梁梓文. 特征域近端高维梯度下降图像压缩感知重构网络[J]. 华南理工大学学报(自然科学版), 2024, 52(3): 119-130.
[4]	郑娟毅, 董嘉豪, 张庆珏, 等. 基于残差密集网络的智能超表面信道估计算法[J]. 华南理工大学学报(自然科学版), 2024, 52(3): 102-111.
[5]	周浪, 樊坤, 瞿华, 等. 基于ECA注意力机制改进的EfficientNet-E模型的森林火灾识别[J]. 华南理工大学学报(自然科学版), 2024, 52(2): 42-49.
[6]	陈琼, 冯媛, 李志群, 等. 基于语义-视觉一致性约束的零样本图像语义分割网络[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 41-50.
[7]	刘卫朋, 李旭, 任子文, 等. 多尺度残差可变形肺部CT图像配准算法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 135-145.
[8]	胡广华, 涂千禧. 基于光度立体和双流特征融合网络的工业产品表面缺陷检测方法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 112-123.
[9]	李方, 郭炜森, 张平, 等. 基于时空双细胞状态的轴承剩余使用寿命预测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 69-81.
[10]	苏锦钿, 余珊珊, 洪晓斌. 一种面向中文拼写纠错的自监督预训练方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 90-98.
[11]	李家春, 李博文, 林伟伟. AdfNet：一种基于多样化特征的自适应深度伪造检测网络[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 82-89.
[12]	郭恩强, 符锌砂. 基于特征相似性学习的抛洒物检测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 30-41.
[13]	赵建东, 焦岚馨, 赵志敏, 等. 考虑侧向车换道影响的理论和数据组合驱动的车辆跟驰模型[J]. 华南理工大学学报(自然科学版), 2023, 51(6): 10-19.
[14]	叶峰, 陈彪, 赖乙宗. 基于特征空间嵌入的对比知识蒸馏算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 13-23.
[15]	赵荣超, 吴百礼, 陈祝云, 等. 多尺度时空信息融合驱动的图神经网络故障诊断方法[J]. 华南理工大学学报(自然科学版), 2023, 51(12): 42-52.

基于多尺度视觉Transformer的图像篡改定位

Image tampering localization based on mutil-scale transformer

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价