华南理工大学学报(自然科学版) ›› 2026, Vol. 54 ›› Issue (1): 70-82.doi: 10.12141/j.issn.1000-565X.250054
杨俊美 张邦成 杨璐 曾徳炉
YANG Junmei ZHANG Bangcheng YANG Lu ZENG Delu
School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China
摘要:
基于自注意力网络的单通道语音分离技术近年来取得了显著进展。虽然自注意力网络在捕捉长序列上下文信息方面表现出色,但在实际语音场景中,其对于时间/频谱连续性、频谱结构和音色等细节的捕获仍有不足;并且,现有基于单一注意力范式的分离架构无法有效融合多尺度特征。本文提出一种端到端的时域全面注意力网络(TCANet),通过结合局部和全局注意力模块,共同解决单通道语音分离中的上述问题。局部建模采用S&C-SENet增强卷积的Conformer块,精细化捕捉语音频谱结构、音色等短时细节特征;全局建模设计了带相对位置嵌入的改进Transformer块,显式学习语音动态上下文的长时依赖;同时,通过维度变换机制衔接局部块内特征与全局块间关联,实现跨尺度特征协同优化。在基准数据集LRS2-2Mix、Libri2Mix以及EchoSet上进行的大量实验结果表明,本文提出的方法在尺度不变信噪比改善Si-SNRi、信号失真比改善SDRi上优于其他端到端语音分离方法。