华南理工大学学报(自然科学版)

2025, 53(9): 0.

摘要 ( 38 )

相关文章 | 多维度评价

CODS：用于粤剧人声合成的音频-文本对齐数据集

李粤, 黄奕翰, 彭郑威, 谢吉轩, 杜宇烨

2025, 53(9): 1-10. doi:10.12141/j.issn.1000-565X.250134

摘要 ( 381 )

HTML ( 33)

PDF (3373KB) ( 78 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

中国戏曲文化作为中国传统艺术之一，具有独特的音乐表现力。粤剧是中国主要戏曲剧种之一，是岭南文化的重要载体，被列入世界非物质文化遗产名录。近年来，生成式人工智能技术展现了其在内容创作领域的强大能力，如歌声合成技术能够根据指定乐谱合成自然的歌声，这为粤剧的数字化保护与创新提供了全新思路。然而，戏曲数据的收集与整理面临音频质量不佳、方言标注复杂等问题，导致高质量戏曲数据集极为匮乏。基于此，该文将流行音乐领域的歌声合成技术应用到粤剧人声合成领域，提出了音素级标注的音频-文本对齐的粤剧人声合成数据集（CODS）。首先，通过系统化的流程构建了数据集CODS，该数据集源自4位著名表演者的29部原创作品，总时长为3.81 h，为粤剧研究和数字化提供了重要支持；然后，在该数据集上，采用深度学习方法进行实验，实现了歌词、音色和旋律可控的粤剧人声合成；最后，建立了一套粤剧人声合成评估方案，主客观评价结果达到了领域内良好水平，验证了所制作数据集的可用性。该文构建的数据集CODS成功填补了人工智能在粤剧人声合成领域的空白，有力推动了这一传统艺术的传承与创新。

基于多兴趣对比的深度强化学习推荐模型

刘慧婷, 刘绍雄, 王佳乐, 赵鹏

2025, 53(9): 11-21. doi:10.12141/j.issn.1000-565X.240088

摘要 ( 303 )

HTML ( 18)

PDF (2268KB) ( 49 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

深度强化学习（DRL）被广泛应用于推荐系统中，用于动态建模用户兴趣并最大化用户的累积收益。然而，用户反馈稀疏问题成为基于DRL的推荐算法面临的重要挑战之一。对比学习作为一种自监督学习方法，通过构造用户兴趣的多个视角增强其表示，进而缓解用户反馈稀疏问题。现有的对比学习方法通常利用基于启发式的增强策略，导致关键信息丢失，且未充分利用异构的交互信息。为解决这些问题，该文提出了基于多兴趣对比的深度强化学习推荐模型（MOCIR）。该模型包括一个对比表示模块和一个策略网络模块。对比表示模块利用异构信息网络（HIN）建模用户不同方面的局部兴趣，同时基于原始数据建模用户的全局兴趣，然后将同一用户的全局兴趣与局部兴趣、不同用户的全局兴趣与局部兴趣分别作为对比学习的正样本对和负样本对，以有效捕捉用户兴趣；策略网络模块用于在聚合用户状态表示后进行推荐；2个模块采用交替更新机制。在3个数据集上的实验结果表明，所提模型的推荐性能优于多个基于深度强化学习的模型，有效地解决了推荐中用户反馈稀疏问题。

基于深度学习的车道线检测算法

岳永恒, 赵志浩

2025, 53(9): 22-30. doi:10.12141/j.issn.1000-565X.240609

摘要 ( 1493 )

HTML ( 20)

PDF (2888KB) ( 72 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

针对智能车辆在复杂场景下的车道线检测准确性问题，该文提出了一种融合多尺度空间注意力机制和路径聚合网络（PANet）的车道线检测算法。该算法首先引入行锚框UFLD车道线检测模型，并结合深度可分离卷积的特征金字塔增强模块PANet，以实现图像的多尺度特征提取；接着，网络框架中设计多尺度空间注意力模块，且引入SimAM轻量级注意力机制，以增强对目标特征的聚焦能力；然后，设计自适应特征融合模块，通过智能调整不同尺度特征图的融合权重，对PANet输出的特征图进行跨尺度融合，以提升网络对复杂特征的提取能力。在TuSimple数据集上的实验结果表明，所提算法的检测精度为96.84%，较原算法提升了1.02个百分点，优于传统的主流算法；在CULane数据集上的实验结果表明，所提算法的F₁值为72.74%，优于传统的主流算法，较原算法提升了4.34个百分点，尤其在强光和阴影等极端场景下的检测性能提升显著，说明所提算法在复杂场景下具有优异的检测能力；实时性测试结果显示，所提算法的推理速度达118.0 f/s，满足智能车辆的实时性需求。

基于动态自适应门控图卷积网络的交通拥堵预测

王庆荣, 高桓伊, 朱昌锋, 何润田, 慕壮壮

2025, 53(9): 31-47. doi:10.12141/j.issn.1000-565X.250003

摘要 ( 393 )

HTML ( 7)

PDF (7533KB) ( 25 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

随着城市机动车保有量的持续攀升，交通拥堵程度不断加剧，这种现象对环境保护与城市运行效率造成不利影响。因此，精确预测交通拥堵对于交通管理与优化具有重要意义。然而，现有研究在建模交通数据的动态时变特性及复杂路段间交互关系方面仍存在一定局限性。针对这一问题，该文提出了一种基于图神经网络的门控时空卷积网络模型，以更有效地刻画和预测交通拥堵状况。首先，通过改进的K-均值聚类算法将原始数据划分为多个拥堵状态类别，并将其作为辅助特征融入预测模型，以增强特征表达能力；然后，引入门控时间卷积网络以捕捉交通数据间的时序特性与动态依赖关系，并构建动态自适应门控图卷积网络，通过信号生成模块与双层调制机制实现特征融合与动态权重分配，从而完成对时空特征的有效提取；最后，引入残差连接以增强训练过程的稳定性，并利用跳跃连接对多层次与多尺度特征进行有效整合。在真实交通数据集PeMS08与PeMS04上对所提模型的有效性进行了验证，结果表明，该模型的预测精度优于其他基线模型。

基于Matrix Core的小尺寸批量矩阵乘法设计与优化

陆璐, 赵容, 梁志宏, 索思亮

2025, 53(9): 48-58. doi:10.12141/j.issn.1000-565X.240498

摘要 ( 410 )

HTML ( 8)

PDF (3143KB) ( 26 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

通用矩阵乘法（GEMM）是线性代数中最重要的运算，来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM的形式。GEMM广泛应用于大模型、机器学习、科学计算和信号处理等领域。特别是半精度的批处理GEMM（即FP16）一直是许多深度学习框架的核心操作。目前AMD GPU上半精度批处理GEMM的访存和计算利用率不足，急需优化。为此，该文提出了一种半精度批处理GEMM（HGEMM）的图形处理器（GPU）优化方案。分块策略方面，根据输入矩阵块大小为线程分配相同的访存量和计算量，同时线程计算多个矩阵乘法，以提高计算单元的利用率。访存优化方面，以多读数据为代价，为每个线程分配相同访存量以便于编译器优化，保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM，该文利用4 × 4 × 4的Matrix Core及其对应的分块方案，在提升访存性能的同时减少Matrix Core计算资源的浪费，并提供是否使用共享内存的选项来达到最高性能。在AMD GPU MI210平台上，将该方案与rocBLAS的2个算子进行性能对比，结果表明：该方案在AMD GPU MI210上的平均性能为rocBLASHGEMMBatched的4.14倍，rocBLASGEMMExBatched的4.96倍；对于极小尺寸批处理HGEMM，平均性能为rocBLASHGEMMBatched的18.60倍，rocBLASGEMMExBatched的14.02倍。

基于双向文本扩展的信息检索重排方法

涂新辉, 郭聪, 宗宇航

2025, 53(9): 59-67. doi:10.12141/j.issn.1000-565X.240499

摘要 ( 128 )

HTML ( 4)

PDF (1332KB) ( 9 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

随着大语言模型（LLM）的快速发展，信息检索中的文本匹配和文本扩展技术均取得了显著进展。查询扩展和文档扩展作为增强文本表征的2种重要方法，已广泛应用于现代信息检索系统中。目前，主流的文本扩展方法主要依赖大语言模型实现，然而这些模型生成的文本与人工创作的文本在语言多样性和风格上存在明显差异。这种差异可能会影响查询-文档相关性的计算准确度，最终导致整个信息检索系统的性能下降。为此，该文提出了一种基于双向文本扩展的信息检索重排方法（BTE-IRRM）。首先，采用零样本提示使大语言模型生成文档的伪查询和查询的伪文档；然后，计算伪查询和伪文档之间的语义相似度；最后，把原始查询-文档的相似度得分和伪查询-伪文档的语义相似度得分进行加权融合，得到最终的文档排序结果。为验证所提方法的有效性，该文在2个公开数据集（DL19和DL20）上进行了实验。结果表明，相比于现有基线方法，BTE-IRRM方法的多项评价指标均取得了显著提升。因此，该文提出的双向文本扩展方法能够进一步增强查询与文档之间的相关性匹配，从而提升整个信息检索系统的性能。

智能弹道轨迹仿真足球辅助训练机器人研究

魏政君, 梁子健, 郑昆, 陈亮

2025, 53(9): 68-75. doi:10.12141/j.issn.1000-565X.240589

摘要 ( 356 )

HTML ( 6)

PDF (2933KB) ( 13 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

随着人们健康意识的提高和竞技体育的普及，球类运动训练的科技化和专业化已成为发展趋势。在足球训练中，精确的射球轨迹模拟和个性化训练方案设计成为亟待解决的关键问题。为提升足球训练的科学性和有效性，推动足球训练的智能化发展，该文结合射球机构、视觉采集、数据分析和运动控制等技术，提出了基于全向移动的智能弹道轨迹仿真足球辅助训练机器人。首先，构建了足球正向动力学模型；然后，综合考虑空气阻力和马格努斯力等复杂物理因素，设计了基于RMSProp算法的逆向运动学模型，用于求解射球初始参数，使偏航角和俯仰角能够根据目标位置进行精确调整，以实现对目标点的高精度击中；最后，搭建了能够调整射球角度和位置的3轴云台射球机器人并进行了实验。结果表明，该训练机器人在各种训练条件下的射球进球点误差小于0.45 m，理论轨迹与实际轨迹的均方根误差小于7.5 cm，从而验证了该逆向运动学模型在射球场景中的鲁棒性和精确性。此外，该文建立了详细的射球数据集，可为后续的数据科学和人工智能研究提供重要资源。

骨科虚拟手术的视觉与力觉融合交互算法

王清辉, 方道鑫, 池梓鹏, 倪建龙, 谢海龙, 李静蓉, 李春海

2025, 53(9): 76-85. doi:10.12141/j.issn.1000-565X.250025

摘要 ( 266 )

HTML ( 8)

PDF (5069KB) ( 23 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

实时的视觉和精细的力觉融合交互算法是实现虚拟手术训练中精准“手感”的关键。为减少存储空间，提高计算效率，精确计算骨铣削过程中的切削力，平衡视觉和力觉融合的交互效果，该文提出了一种基于Tri-dexel模型的视觉与力觉融合交互算法。首先，采用Tri-dexel模型表示骨与医用铣刀，通过布尔运算、快速表面重建及渲染算法实现虚拟骨铣削操作过程中的实时几何变形计算；接着，结合医用铣刀的几何参数，提出基于微元切削力的骨铣削力觉交互模型，利用骨与医用铣刀Tri-Dexel模型之间布尔运算的结果，快速精确求解瞬时未变形切屑厚度；然后，通过槽切实验完成对切削力系数的辨识，并对该力觉模型进行验证分析，实现虚拟骨铣削操作过程中的力觉渲染；最后，基于上述算法搭建骨科虚拟手术训练系统，通过实验对视觉与力觉融合交互算法进行测试与评估。结果表明：力觉模型的预测结果与实验测量结果吻合较好，力的平均相对误差在7%以下；该算法能够同时满足30 Hz的视觉刷新频率以及1 kHz的力觉刷新频率要求；所搭建的骨科虚拟手术训练系统能够为用户提供高沉浸感的虚拟骨铣削操作训练，可有效提高用户的手眼协调能力。

水下焊接机器人磁轮吸附力多工况建模与验证

王振民, 朱彬, 迟鹏, 罗犇德

2025, 53(9): 86-97. doi:10.12141/j.issn.1000-565X.240500

摘要 ( 242 )

HTML ( 1)

PDF (6897KB) ( 11 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

针对磁轮吸附式水下焊接机器人作业时出现的吸附失稳问题，该文提出了一套基于质心偏移的矢量叠加磁轮临界吸附力计算方法。该方法综合考虑了传统的滑移失效、脱落失效、倾覆失效以及极少被研究的滑转失效等多种失效模式，以有效解决传统吸附力计算精度低所导致的吸附失稳问题。首先，基于机器人底盘结构，建立了4种吸附不失稳对应的静力学模型，并结合静力学耦合关系提出了矢量叠加方法，该方法充分考虑了执行机构运动过程中质心偏移对吸附稳定性的影响，可为磁轮临界吸附力的精确计算提供理论依据；然后，基于现有水下焊接机器人的永磁吸附底盘进行实例计算，通过Matlab求解静力学结果，分析最大质心偏移的底盘在不同空间角度下的临界吸附力变化规律；最后，通过搭建实验场地测试机器人在不同作业工况下的吸附稳定性。实验结果表明，基于质心偏移的矢量叠加方法能有效提高水下焊接机器人的吸附稳定性，为后续磁吸附底盘的设计和磁力优化提供了新的理论支持。

气体轴承-转子系统双向流固耦合特性分析及等效气膜厚度的建立与验证

马文琦, 马海龙, 秦雨彬, 黄大利

2025, 53(9): 98-105. doi:10.12141/j.issn.1000-565X.240305

摘要 ( 174 )

HTML ( 6)

PDF (2511KB) ( 13 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

采用计算流体动力学（CFD）方法对气体轴承-转子系统进行流场特性仿真时，气膜厚度是至关重要的结构参数之一，但零件加工过程中产生的形状、尺寸误差以及系统装配造成的偏差等，会导致实际气膜与理想设计气膜在空间形貌及尺度上存在一定的偏差，进而影响数值计算结果的可靠性及准确性。为此，该文首先提出了流场有效气膜厚度的概念，通过双向流固耦合数值仿真与实验结果的对比分析及修正，最终确定合理的等效气膜厚度。研究结果表明：采用双向流固耦合数值仿真方法可揭示气膜流场瞬态特性及转子姿态的变化规律，并对气体轴承-转子系统是否能够安全运行进行预判和评估，节省了实验测试成本；采用转子倾斜角作为对比分析特征，为数值仿真结果和实验测试结果之间的系统性能偏差分析提供了直观的参考依据；等效气膜厚度的建立可最大程度上简化数值仿真模型，提高数值仿真效率，同时其结果又具有一定的可靠性；以供气压力0.6 MPa、单边稳态力80 N为例，通过误差分析和逼近，循环建立和修正流固耦合仿真模型中预估的等效气膜厚度，最终将系统倾斜角的相对误差控制在5%以内，极大地提高了数值仿真结果与实际工程系统性能的一致性，进而为气体轴承-转子仿真系统在结构设计、性能预测及评估中的应用提供了可靠方法及依据。

高减速比准双曲面齿轮齿面主动设计及性能优化

纪姝婷, 李嘉豪, 张跃明

2025, 53(9): 106-116. doi:10.12141/j.issn.1000-565X.240586

摘要 ( 336 )

HTML ( 7)

PDF (4605KB) ( 30 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

为提升高减速比准双曲面齿轮的综合传动性能，该文提出了一种基于齿面主动设计技术的齿面接触迹线大倾斜设计方法。首先，预置多个接触迹线倾斜程度不同的齿面印痕，并分别设定其接触椭圆长半轴和接触迹线长度，对小轮共轭齿面进行抛物线修形，得到符合预置齿面参数的齿面；然后，结合齿面接触分析（TCA）和齿面承载接触分析（LTCA）技术，获得各齿面的传动误差幅值（ATE）、承载传动误差幅值（ALTE）、齿面载荷分布情况、齿根弯曲应力幅值及齿面闪温幅值，并分析接触迹线长度的变化对这些性能参数的影响；最后，选取一个最终的目标修形齿面，分析其综合性能，并与原始齿面作比较。算例分析结果表明，对于一副齿数比为5∶75的高减速比准双曲面齿轮，在齿面接触迹线大倾斜情况下，接触迹线长度越长，齿面接触应力越小，齿根弯曲应力与齿面闪温也随之减小；目标齿面边缘接触情况减弱，齿根最大弯曲应力降低12.0%，接触应力分布更均匀，齿面最高闪温下降6.3%，胶合承载能力提升，修形后的目标齿面接触区性能更加优良，承载能力更好，且综合传动性能显著提升。

基于LSTM-AE的办公建筑照明插座多工况能耗异常检测方法

陈城, 王淼, 王馨瑶, 高志明, 周璇, 闫军威

2025, 53(9): 117-126. doi:10.12141/j.issn.1000-565X.240575

摘要 ( 233 )

HTML ( 2)

PDF (3612KB) ( 15 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

建筑照明插座能耗异常检测能够有效提高建筑能源效率，对实施建筑能源优化措施、实现建筑节能管控的研究具有重要意义。由于建筑照明插座系统能耗很大程度上受到建筑内部人员随机行为的影响，针对照明插座时间序列数据存在噪声较多和特征难以提取的问题，该文提出了一种结合工况划分与深度学习的无监督异常检测方法，旨在提升能耗异常识别的精度与鲁棒性。首先基于决策树方法对能耗数据按工作日与非工作日、上班与非上班时段等属性划分工况，然后针对不同工况分别构建基于长短期记忆神经网络-自编码器（LSTM-AE）的异常检测模型。该模型通过对正常数据的重构学习，计算重构误差，并设定差异化阈值，实现无标签数据下的能耗异常检测。以夏热冬暖地区某办公建筑578 d的照明插座逐时能耗数据为研究对象，开展数据建模与超参数优化实验。结果显示：迭代次数、神经元数和激活函数均对模型性能有显著影响；工作日工况下的能耗数据稳定性优于非工作日，异常检测精度相对更高；所提方法在4类工况下的平均精确率、召回率、F₁分别为91.23%、90.87%、90.80%，能够有效实现建筑照明插座系统能耗异常检测。

基于终端约束模型预测控制的区域供冷系统辅助电网调频控制策略

刘明波, 劳子卿, 董萍

2025, 53(9): 127-137. doi:10.12141/j.issn.1000-565X.250017

摘要 ( 207 )

HTML ( 0)

PDF (3340KB) ( 4 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

区域供冷系统是一类集中化的空调负荷，具有一定的调频潜力。该文提出了一种基于终端约束模型预测控制的区域供冷系统辅助电网调频控制策略，通过调节区域供冷系统的冷冻水流量和冷水机组开机数量，控制区域供冷系统消耗的功率。首先，建立了考虑冷冻水流量与冷冻水出口温度关系的区域供冷系统动态模型和传统机组动态模型，构建系统的状态空间表达式；接着，基于终端约束模型预测控制方法，建立区域供冷系统和传统机组联合调频控制模型，其目标函数为最小化频率偏差、建筑物温度与人体舒适温度偏差、冷冻水流量控制指令及传统机组控制指令，终端约束包括终端代价函数和终端集；然后，通过构造系统的李雅普诺夫函数，证明该终端约束模型预测控制问题是渐进稳定的；最后，在10机39节点系统和某实际系统上分别进行仿真计算。结果表明：加入终端约束可提高系统的稳定性；采用区域供冷系统辅助电网调频，能够帮助系统快速恢复额定频率、提升调频性能；区域供冷系统参与电网调频不会对用户舒适度造成较大影响。

火电厂大直径烟囱可溯源烟气流量测量方法

卢志民, 谢子立, 卢伟业, 陈小玄, 黄泳如, 刘泽明, 田学军, 姚顺春

2025, 53(9): 138-148. doi:10.12141/j.issn.1000-565X.240571

摘要 ( 253 )

HTML ( 1)

PDF (3796KB) ( 6 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

示踪气体稀释法能解决电厂大直径烟囱流场复杂导致的烟气流量测量结果误差大的问题。该方法具有可溯源性，且其测量原理与常规速度面积法不同，因此具有作为流量测量现场校准方法的潜力。为此，该文基于数值模拟方法分析示踪气体稀释法在火电厂烟囱烟气流量测量中的可行性与准确性，并在此基础上，研究示踪剂稀释比例、示踪剂注入截面对测量的影响，同时还设计不同示踪剂取样方案来评估测量的稳定性。结果表明：在约9D（D为烟囱直径）高度处，示踪剂与烟气实现充分混合；示踪剂稀释比例过高或过低均会影响示踪剂与烟气的混合效率；示踪剂在烟道处注入能有效减小流量测量误差。在负荷率80%下，采取烟囱注入时，各取样方案的误差波动范围较大，但3点取样具有较稳定且良好的测量效果，在3D、8D、12D截面上的测量误差分别仅为-3.59%、-0.69%、-1.05%；水平烟道注入时，各取样方案的流量测量误差均不超过 ± 10%，且3点取样时，在3D、8D、12D截面上的测量误差分别仅为0.98%、-0.52%、0.21%，均在 ± 1%以内。该研究证明了示踪气体稀释法在大直径烟囱烟气流量测量中的可行性与准确性。

吹胀型铝质均热板相变传热模组的传热性能实验研究

甘云华, 谢宇恒, 刘锋铭, 廖月鹏, 李勇

2025, 53(9): 149-162. doi:10.12141/j.issn.1000-565X.240534

摘要 ( 217 )

HTML ( 4)

PDF (7071KB) ( 25 )

数据和表 | 参考文献 | 相关文章 | 多维度评价

针对5G通信基站高功耗模块的热管理，提出了一种蒸发腔与均热板流道相互连通的吹胀型铝质均热板相变传热模组，通过搭建性能测试平台，研究了其在不同充液率下的传热性能，分析了相变工质沸腾状态、流量分配对均温性能及散热效率的影响，同时探讨了不同侧向倾角下热源表面温度分布的变化规律。研究结果表明：在输入功率不超过400 W的条件下，随着充液率的增加，相变传热模组的总体热阻先减小后增大，在充液率为15.0%时热阻最低，最低总体热阻为0.211 6 ℃/W；适当降低充液率会使均热板底部的液态工质沸腾，从而促进气态工质在不同均热板间均衡分配，进而提高相变传热模组的散热效率及温度均匀性；在输入功率分别为350 W和400 W时，充液率从30.0%减少至15.0%时，均热板间的温度标准差分别降低40.92%和34.04%，温度均匀性显著改善；当相变传热模组倾角改变时，蒸发腔内液位的偏移会导致热源温度分布不均，且这种不利影响随着倾角的增大而加剧，当倾角为10.0°（同功率下）时，热源表面的最大温差扩大至水平放置时的11.7倍以上。

过刊浏览