华南理工大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (7): 1-.doi: 10.12141/j.issn.1000-565X.240508
• 电子、通信与自动控制 •
曹毅 王彦雯 李杰 郑植 孙浩
江南大学机械工程学院/江苏省食品先进制造装备技术重点实验室,江苏 无锡 214122
CAO Yi WANG Yanwen LI Jie ZHENG Zhi SUN Hao
School of Mechanical Engineering/ Jiangsu Key Laboratory of Advanced Food Manufacturing Equipment and Technology, Wuxi 214122, Jiangsu, China
摘要:
针对现有方法进行声音事件分类研究时其分类准确率不高、泛化能力不强的问题,提出了一种基于减小高频混响和多尺度注意力的频域残差收缩网络(RF-DRSN-EMA)的声音事件方法。首先介绍了减小声音混响的原理,提出了一种减小高频混响的算法,通过仅减小分离出的音频高频段混响而保留其余频段中的关键频率信息,从而在提升语音清晰度的同时尽可能减小语音失真的影响;其次,以深度残差收缩网络为基础网络,结合改进的频域自校正算法和多尺度注意力模块,提出了多尺度注意力的频域残差收缩网络RF-DRSN-EMA。该模型采用RF自校正块,其内部的长短距离残差结构能缓解特征坍塌,以期实现频域信息的高效采集,并在单元的输出采用多尺度注意力模块,其能进一步关注单元在输出层的有效信息,从而强化模型的表征能力。最后,基于ESC-10、Urbansound8K、DCASE2020 Task 1A数据集开展了声音事件分类实验。实验结果表明:减小高频混响的语音增强方法能针对性减小高频段混响等背景噪音影响和消除冗余特征的同时,且音质损伤较小,从而具有更好的分类性能;同时RF-DRSN-EMA实现了网络中频域的典型特征去噪以及信息的高效采集,模型最佳分类准确率分别达到了98.00%、93.42%、72.80%,验证了该方法的有效性和泛化性。