华南理工大学学报(自然科学版)-栏目: 计算机科学与技术

基于Matrix Core的高性能多维FFT设计与优化

陆璐, 祝松祥, 田卿燕, 等 — 2024-04-23 00:00:00.0

快速傅里叶变换（FFT）算法常在科学计算与工程应用中涉及。为了充分挖掘GPU的计算能力并进一步提高FFT的计算效率，本文研究了矩阵形式的Stockham FFT算法，提出了一种基于Matrix Core的高性能多维FFT计算方案。计算优化方面，该方案利用Matrix Core加速FFT计算中的矩阵乘运算，同时通过编译器内部指令完成小粒度的矩阵乘加使得Matrix Core支持更多尺寸的FFT计算。内存优化方面，该方案使用两层迭代策略充分利用共享内存，减少与全局内存的数据交换；根据Matrix Core的矩阵数据在各个线程寄存器的分布规律，直接在寄存器上完成FFT计算中大量存在的矩阵逐元素乘操作；通过对共享内存中的数据进行重排来缓解存储体冲突，并采用双缓冲策略缓解访存瓶颈。最后本文提出了高效的矩阵转置策略加速多维FFT计算。我们在AMD MI250 GPU平台上将该方案与GPU上主流的高性能FFT计算库rocFFT和vkFFT进行了性能比较，结果表明，该方案在AMD MI250上的1D、2D、3D FFT平均计算性能优于rocFFT和vkFFT，其中对于3D FFT计算，平均性能为rocFFT的1.5倍，为vkFFT的2.0倍，具有较好的性能提升。

改进柱形特征编码的单阶段目标检测

罗玉涛, 毛浩杰 — 2024-04-26 00:00:00.0

基于柱形（Pillar）的单阶段点云三维目标检测方法凭借较高的运行效率在工业界得到广泛的关注和应用，但是由于对点云柱形量化造成的点云三维特征细粒度信息损失，导致这类方法对稀疏点云小目标的检测能力较弱。尽管部分研究对此问题提出了应对方法，但通常以较大的检测时间成本或者大目标检测精度作为代价。针对上述问题，提出一种实现柱形单元内部点云局部与全局特征相结合的柱形特征编码网络，在其中应用傅里叶特征映射和偏移自注意力机制实现对柱形单元点云局部特征提取，同时引入二维稀疏卷积块与特征融合网络构建主干网络，防止过度关注小尺寸特征导致降低大目标的检测性能。在 KITTI三维目标检测数据集上进行训练和测试，并对实验结果进行了可视化和消融研究。实验结果显示，所提算法在KITTI 数据集的中等难度下，多类别平均精度均值达到63.54%、平均方向相似性均值达到70.72%，且平均检测帧速率达31.5FPS。与PointPillars、TANet和PiFEnet模型相比，平均精度均值分别提高了2.44、2.05和2.38个百分点，平均方向相似性均值分别提高了4.69、0.68和7.83个百分点，在同类方法的对比中表现出工程应用潜力。

一种新的解决标签偏差问题的开放世界目标检测方法

黄阳阳, 许勇, 席星, 等 — 2024-07-05 00:00:00.0

开放世界目标检测(OWOD)将目标检测问题推广到更为复杂的现实动态场景，要求系统能够识别图像中的所有已知和未知目标类别，并且具备根据新引入知识进行增量学习的能力。然而，当前的开放世界目标检测方法通常将高物体性分数的区域标记为未知对象，且很大程度上依赖于已知对象的监督。尽管这些方法能够检测与已知对象相似的未知对象，但它们面临严重的标签偏差问题，即倾向于将与已知对象不相似的所有区域都检测为背景的一部分。为解决此问题，本研究提出了一种无监督建模方法，显著提高了模型检测未知对象的能力。同时，针对模型训练过程中ROI分类阶段对新类别的敏感性，阻碍了RPN提议生成阶段的泛化性能，本研究提出了一种解耦RPN区域建议生成和ROI分类联合训练的方法，进一步提高了模型解决标签偏差问题的能力。实验结果表明，本研究提出的方法在MS-COCO数据集上检测未知对象时取得了巨大提升，未知类别召回率超过先前的SOTA方法两倍以上，达到了52.1 U-Recall，同时在检测已知对象类别方面保持了竞争性。另外，在推理速度方面，本研究的模型使用纯卷积神经网络构建，而不是使用密集注意力机制，超过最先进的基于Deformable DETR方法8.18 f/s。

基于意图理解驱动的客服知识推介大模型构建

马晓亮, 高洁, 刘英, 等 — 2024-08-23 00:00:00.0

随着人工智能技术在客服领域的深入应用，电信运营商对AI服务知识推荐的准确率提升提出了更高的要求。本文针对这一问题，提出并构建了一个基于意图理解的客服大模型，旨在提高电信运营商AI客服系统的知识推荐效率和准确度。首先采用S&DS关键词提取模型识别用户查询中的关键词，并通过语义相似度比较技术匹配标准问库中的问题，生成最相关的标准问。标准问库的构建采用了Generative Agents技术框架，该框架基于向量数据库，能够自主生成知识问题。接着，提取的标准问被输入到ChatGLM2-6B大语言模型中，经过预训练与人类偏好对齐训练。实验结果显示，引入标准问库后，智能推荐系统在特定行业知识领域的准确率从74.8%显著提升至85.9%，多组对比实验进一步验证了建立标准问库的策略在提高准确率方面的有效性。本文成功构建了一个基于意图理解的客服大模型，并提出了一种结合标准提示和大语言模型的方法，优化了运营商AI客服的智能知识推荐。该研究为电信运营商AI客服系统的知识推荐提供了新的思路和技术支持。

基于多粒度特征-区域关系赤足足迹分割方法

张艳, 严毅, 吴红英, 等 — 2024-08-23 00:00:00.0

采用语义分割方法自动分割赤足图像时，虽然可以减少人工干预，但针对足迹中细小模糊区域，分割结果不够理想。针对该问题，文中提出了基于多粒度特征-区域关系赤足足迹分割方法，通过局部区域标签使特征表示关注脚趾区域，提取足迹的多粒度特征，与足迹全局特征融合，提升对赤足足迹中模糊区域的分割效果；同时对原图和特征图进行空间变换，采用矩阵相乘建立两者间赤足区域关系矩阵，利用关系矩阵对赤足全局特征进行空间调制来实现特征增强。文中构建了一个现场赤足足迹数据集，包含25人的1100幅现场赤足足迹图像。文中针对模糊、光照不均、模糊-光照不均和正常四种赤足图像进行实验，在正常赤足图像上分割时赤足类交并比达到93.50%，在模糊、光照不均、模糊-光照不均三类图像上分别达到92.90%、93.06%、91.66%，其中在模糊-光照不均图像上交并比相比于UNet提升1.14%。

基于文本-视觉和信息熵最小化的对比学习模型

蔡晓东, 董丽芳, 黄业洋, 等 — 2024-09-13 00:00:00.0

当前的无监督对比学习方法主要依赖于纯文本信息来构建句子嵌入，在全面理解句子所表达的深层含义时存在局限性。同时，传统的对比学习方法过于注重最大化文本正实例之间的互信息，忽视了句子嵌入中潜在的噪声干扰。为了解决上述问题，本文提出了一种基于文本-视觉和信息熵最小化的对比学习模型。首先，该模型将文本与对应的视觉信息在对比学习的框架下深度融合，共同映射到一个统一的地面空间，并确保它们的表示在该空间中保持一致。通过这种方式，模型克服了仅依赖纯文本信息进行句子嵌入学习的限制，使得对比学习过程更加全面且精确。其次，遵循信息最小化原则，在最大化文本正实例间的互信息的同时，基于信息熵最小化对文本正实例进行重构。该策略不仅保留了文本中的有用信息，还有效地剔除了嵌入中的噪声干扰。在标准语义文本相似度（STS）任务上的实验结果表明，本文提出的模型在Spearman相关系数评价指标上取得了显著提升，相较于现有先进方法具有显著优势，同时也证明了该模型的有效性。

四向穿梭式立体库货架布局及设备配置策略研究

李建国, 宫新成 — 2024-09-27 00:00:00.0

四向穿梭式立体库（FWS-AS/RS）是近年广泛应用于电商、医药、食品等行业的仓储形式，具有系统配置灵活、高存储密度、高效率及高度自动化等特点。为高效设计FWS-AS/RS货架布局及设备配置首先考虑在不同存储规模下布局货架行、列、层数的可能，结合横巷道布局位置和数量变化及不同货架深度对运行效率的影响进行了讨论。其次以穿梭车和提升机不同数量配置及提升机、I/O不同的布设位置作为变量，考虑加速、减速、空载、负载能量消耗以及制动时的能量回收建立了穿梭车和提升机的运动模型。以总成本、搬运距离、能耗和空间利用率作为评价指标，通过仿真实验得到了建设四向穿梭式立体库货架行列、层数、深度、巷道位置、I/O数量与位置、四向穿梭车（FWS）与提升机数量配比、提升机与纵巷道数之间关系等7条规律性设计策略。最后以存储容量为5000的立体库为例应用这些策略进行设计仿真，结果表明三种优化方案使得搬运距离、搬运能耗、总成本以及占地面积平均降低了43.31%、57.79%、11.17%、8.6%，而空间利用率平均提升了5.66%。证明了设计策略的正确性，为此类立体仓库的建造及运营提供了借鉴。

基于混合编码和掩膜空间调制的图像补全算法

冼进, 徐小茹, 冼允廷, 等 — 2024-10-11 00:00:00.0

图像补全是计算机视觉和图像处理研究的重要问题之一。当前图像补全算法已经取得了很大的进展，但是在处理大范围缺失的复杂图像时，由于缺乏有效的网络结构来捕捉图像的长距离依赖和高级语义信息，仍然较难生成高质量的完整图像。本文针对大范围缺失的图像补全问题，提出了一个基于混合编码和掩膜空间调制的图像补全算法。本文方法通过混合编码网络对图像可见区域进行局部和全局信息的特征提取，采用掩膜空间调制模块来根据缺失面积的大小动态调整在生成缺失区域时的多样性，然后基于StyleGAN2 生成完整图像。实验结果表明，本文提出的方法能够有效处理大范围缺失的情况，生成具有多样性的高质量图像；同时，本文将提出的算法能有效应用在视觉显著性模型的数据增强技术上。