华南理工大学学报(自然科学版) ›› 2025, Vol. 53 ›› Issue (11): 9-17.doi: 10.12141/j.issn.1000-565X.240524
陆璐1, 王远飞1, 梁志宏2,3, 索思亮2,3
LU Lu1, WANG Yuanfei1, LIANG Zhihong2,3, SUO Siliang2,3
摘要:
快速傅里叶变换(Fast Fourier Transform,FFT)作为科学计算和信号处理领域的核心算法,已广泛应用于数字信号处理、图像处理、深度学习等领域。随着数据规模的增长和处理需求的提高,在新型硬件平台上优化FFT算法显得尤为重要。该文深入分析了昇腾NPU的架构特点及其对FFT算法优化的影响,基于矩阵运算形式的Stockham FFT算法,提出了一系列创新性优化策略:设计了启发式radix选择算法,针对不同输入规模提供较优的radix序列组合;针对单次迭代FFT,开发了无需虚实分离的高效计算流程,显著减少了全局内存访问开销;提出了基于片上缓存的数据读取优化策略,大幅提升了数据访问速度;为多次迭代设计了数据布局优化方法,有效改善了整体访存效率。在搭载昇腾910 AI处理器的昇腾Atlas 800平台上的实验结果表明,该文提出的优化策略相比无优化基准实现了4.61的平均加速比;对各项优化策略进行的独立性能分析和验证表明,各单项优化策略的平均加速比为1.42~3.52。研究结果为在新型NPU架构上实现高效FFT算法提供了技术参考。
中图分类号: