基于度量学习的跨模态人脸检索方法

doi:10.12141/j.issn.1000-565X.210709

华南理工大学学报(自然科学版) ›› 2022, Vol. 50 ›› Issue (6): 1-9.doi: 10.12141/j.issn.1000-565X.210709

所属专题： 2022年计算机科学与技术

基于度量学习的跨模态人脸检索方法

沃焱梁籍云韩国强

华南理工大学计算机科学与工程学院，广东广州 510006

收稿日期:2021-11-09 修回日期:2021-12-31 出版日期:2022-06-25 发布日期:2022-02-11
通信作者: 沃焱(1975-)，女，博士，教授，主要从事多媒体应用技术研究。 E-mail:woyan@scut.edu.cn
作者简介:沃焱(1975-)，女，博士，教授，主要从事多媒体应用技术研究。
基金资助:
广东省自然科学基金资助项目 (2021A1515012020); 广州市科技计划项目 (202002030298)

A cross-modal face retrieval method based on metric learning

WO Yan LIANG Jiyun HAN Guoqiang

School of Computer Science and Engineering，South China University of Technology，Guangzhou 510006，Guangdong，China

Received:2021-11-09 Revised:2021-12-31 Online:2022-06-25 Published:2022-02-11
Contact: 沃焱(1975-)，女，博士，教授，主要从事多媒体应用技术研究。 E-mail:woyan@scut.edu.cn
About author:沃焱(1975-)，女，博士，教授，主要从事多媒体应用技术研究。
Supported by:
Supported by the Natural Science Foundation of Guangdong Province (2021A1515012020)

摘要/Abstract

摘要： 度量学习是一种减少模态差异的重要技术，已有的基于度量学习的跨模态检索方法用于跨模态人脸检索任务时缺乏对视角差异和域差异的关注，并且在度量学习的过程中存在两个问题：缺乏对全局信息的学习和存在大量冗余三元组。文中提出了一种基于度量学习的跨模态共同表达生成算法，采用偏航角等变模块补偿偏航角差异获取具有鲁棒性的图像特征，使用多层注意力机制获取具有可分性的视频特征；结合全局三元组和局部三元组共同训练跨模态共同表达生成网络提升度量学习的一致性和准确性，同时通过半困难三元组筛选加速了损失函数的收敛；提出结合域校准和迁移学习作为域适应方法提升共同表达的泛化性。最终，在PB、YTC和UMD Faces三个人脸视频数据集中的实验结果证明了本文算法有效提升了跨模态人脸检索的准确性，通过少数样本微调跨模态共同表达生成网络有效提升了目标域图像跨模态检索的准确性。

关键词: 度量学习, 跨模态检索, 注意力机制, 深度学习

Abstract: Metric learning is an important technique to reduce modal differences. Existing cross-modal retrieval methods based on metric learning for cross-modal face retrieval tasks lack attention to pose differences and domain differences, and there are two problems in the process of metric learning: lack of learning of global information and the existence of a large number of redundant triplets. In this paper, a cross-modal common representation generation algorithm based on metric learning is proposed. Our study uses the yaw angle equivariant module to compensate for yaw angle differences so that we can obtain the image features with robustness, uses the multi-layer attention mechanism to obtain video features with differentiability; combines global triplets and local triplets to jointly train the cross-modal common representation generation network, then accelerates the convergence of the loss function through the screening of semi-hard triplets; combines domain calibration and transfer learning to improve the generalization of common representations. Finally, the results of comparison experiments on three face video datasets: PB, YTC and UMD Faces, demonstrate that our algorithm can improve the accuracy of cross-modal face retrieval, and the results of fine-tuning the cross-modal common representation generation network using different numbers of samples demonstrate that our algorithm can improve the accuracy of cross-modal retrieval of target domain images.

Key words: metric learning, cross-modal retrieval, attention mechanism, deep learning

沃焱, 梁籍云, 韩国强. 基于度量学习的跨模态人脸检索方法[J]. 华南理工大学学报(自然科学版), 2022, 50(6): 1-9.

WO Yan, LIANG Jiyun, HAN Guoqiang. A cross-modal face retrieval method based on metric learning[J]. Journal of South China University of Technology(Natural Science Edition), 2022, 50(6): 1-9.

[1]	胡习之, 崔博非, 王琴, 等. 基于记忆泊车场景的视觉SLAM算法[J]. 华南理工大学学报(自然科学版), 2024, 52(6): 1-11.
[2]	胡永健, 卓思超, 刘琲贝, 王宇飞, 李纪成. 基于多尺度时空特征和篡改概率改善换脸检测的跨库性能[J]. 华南理工大学学报(自然科学版), 2024, 52(6): 110-119.
[3]	刘昊, 元辉, 陈晨, 高伟. 基于采样的点云几何编码框架[J]. 华南理工大学学报(自然科学版), 2024, 52(6): 148-156.
[4]	杨春玲, 梁梓文. 特征域近端高维梯度下降图像压缩感知重构网络[J]. 华南理工大学学报(自然科学版), 2024, 52(3): 119-130.
[5]	郑娟毅, 董嘉豪, 张庆珏, 等. 基于残差密集网络的智能超表面信道估计算法[J]. 华南理工大学学报(自然科学版), 2024, 52(3): 102-111.
[6]	周浪, 樊坤, 瞿华, 等. 基于ECA注意力机制改进的EfficientNet-E模型的森林火灾识别[J]. 华南理工大学学报(自然科学版), 2024, 52(2): 42-49.
[7]	陈琼, 冯媛, 李志群, 等. 基于语义-视觉一致性约束的零样本图像语义分割网络[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 41-50.
[8]	刘卫朋, 李旭, 任子文, 等. 多尺度残差可变形肺部CT图像配准算法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 135-145.
[9]	胡广华, 涂千禧. 基于光度立体和双流特征融合网络的工业产品表面缺陷检测方法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 112-123.
[10]	杨春玲, 陈文俊, 刘嘉惠. 用于视频压缩感知的特征域优化启发及多假设交叉注意力重构神经网络[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 9-21.
[11]	强睿儒, 赵小强. 基于格拉姆角差场和生成对抗网络的小样本滚动轴承故障诊断方法[J]. 华南理工大学学报(自然科学版), 2024, 52(10): 64-75.
[12]	田晟, 宋霖, 赵凯龙. 基于偏移注意力机制和多特征融合的点云分类[J]. 华南理工大学学报(自然科学版), 2024, 52(1): 100-109.
[13]	李海燕, 尹浩林, 李鹏, 等. 基于密集特征推理及混合损失函数的修复算法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 99-109.
[14]	李方, 郭炜森, 张平, 等. 基于时空双细胞状态的轴承剩余使用寿命预测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 69-81.
[15]	苏锦钿, 余珊珊, 洪晓斌. 一种面向中文拼写纠错的自监督预训练方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 90-98.

基于度量学习的跨模态人脸检索方法

A cross-modal face retrieval method based on metric learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价