华南理工大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (11): 1-.doi: 10.12141/j.issn.1000-565X.250072
• 计算机科学与技术 •
关欣 刘晨曦 李锵
天津大学 微电子学院,天津 300072
GUAN Xin LIU Chenxi LI Qiang
School of Microelectronics, Tianjin University, Tianjin 300100, Tianjin, China
摘要:
由于数据采集质量不稳定,在3D手部姿态估计任务中,仅使用单一RGB或深度图像往往会导致关键特征的缺失。相比之下,结合两者语义和结构优势的多模态方法更具鲁棒性。然而,现有多模态手部姿态估计方法在融合RGB和深度特征时,仍面临信息冗余、模态对齐误差及局部特征缺失等问题,影响关键点定位的精度与稳定性。为此,本文提出一种基于深度几何特征引导的多模态关键点特征增强与融合方法。首先,利用深度结构特征表征手部轮廓和几何信息,以初步估计关键点位置。然后,引导选取对应RGB模态信息局部增强深度模态特征,弥补深度模态因空洞和遮挡而引起的结构特征缺失。进一步地,采用关键点局部深度三维结构特征局部增强初始RGB特征,提升RGB模态对手部三维空间结构的理解能力。最后,通过全局跨模态注意力机制进行交互学习,使局部增强的深度与RGB特征在全局范围内对齐,并动态优化模态信息的互补性。与现有的主流深度学习方法相比,本文在DexYCB、HO-3D和InterHand2.6M数据集上分别达到了7.52 mm、1.80 mm和7.40 mm的最低误差。