作者投稿查稿系统 版权转让协议 | 论文模板 | 作者须知
专家审稿 | 编委审稿 主编审稿 | 编辑办公
虚拟专刊 | 当期目录 | 过刊浏览 阅读排行 | 下载排行 | 引用排行
中国戏曲文化作为中国传统艺术之一,具有独特的音乐表现力。粤剧是中国主要戏曲剧种之一,是岭南文化的重要载体,被列入世界非物质文化遗产名录。近年来,生成式人工智能技术展现了其在内容创作领域的强大能力,如歌声合成技术能够根据指定乐谱合成自然的歌声,这为粤剧的数字化保护与创新提供了全新思路。然而,戏曲数据的收集与整理面临音频质量不佳、方言标注复杂等问题,导致高质量戏曲数据集极为匮乏。基于此,该文将流行音乐领域的歌声合成技术应用到粤剧人声合成领域,并提出了首个音素级标注的音频-文本对齐的粤剧人声合成数据集。首先,该文通过系统化的流程构建了CODS数据集。该数据集源自四位著名表演者的29部原创作品,总时长为3.81小时,为粤剧研究和数字化提供了重要支持。其次,该文在该数据集上进行了充分的实验,实现了歌词、音色和旋律可控的粤剧人声合成。此外,该文建立了一套粤剧人声合成评估方案,基于主客观评价验证了所制作数据集的可用性。该文提出的CODS数据集成功填补了人工智能在粤剧人声合成领域的空白,有力推动了这一传统艺术的传承与创新。
深度强化学习(DRL)算法被广泛应用到推荐系统中,用于动态建模用户兴趣并最大化用户的累积收益。然而,用户反馈稀疏问题成为基于DRL的推荐方法面临的一个重要挑战。对比学习作为一种自监督学习方法可以构造用户兴趣的多个视角,增强用户兴趣的表示的同时缓解用户反馈数据稀疏的问题。现有的对比学习方法通常利用基于启发式的增强策略,导致关键信息的丢失,且未充分利用异构的交互信息。为了解决这些问题,本文提出了基于多兴趣对比的深度强化学习推荐方法(MOCIR)。具体而言,本文所提出的模型包括一个对比表示模块和一个策略网络模块。对比表示模块利用异构信息网络(HINs)来建模用户不同方面的局部兴趣,并使用原始数据来建模用户的全局兴趣,然后利用全局和局部兴趣作为对比学习的一对正负样本对,从而有效地捕捉用户的兴趣。策略网络用于在聚合用户状态表示后进行推荐,策略网络和对比模块交替的更新。通过在三个基准数据集上进行实验证明,本文提出的方法相较于最先进的方法在提高推荐模型性能方面取得了显著的改进。
随着城市机动车保有量的持续攀升,交通拥堵程度不断加剧,并对环境保护与城市运行效率造成不利影响。因此,精确预测交通拥堵对于交通管理与优化具有重要意义。然而,现有研究在建模交通数据的动态时变特性及复杂路段间交互关系方面仍存在一定局限性。针对这一挑战,提出一种基于图神经网络的门控时空卷积网络模型以更有效地刻画和预测交通拥堵状况。首先,通过改进的K-Means聚类算法将原始数据划分为多个拥堵状态类别,并将其作为辅助特征融入预测模型,以增强特征表达能力;其次,引入门控时间卷积网络以捕捉交通数据间的时序特性与动态依赖关系,并构建动态自适应门控图卷积网络,通过信号生成模块与双层调制机制实现特征融合与动态权重分配,从而完成对时空特征的有效提取;最后,引入残差连接以增强训练过程的稳定性,并利用跳跃连接对多层次与多尺度特征进行有效整合。在真实交通数据集PeMS08与PeMS04上对所提出模型的有效性进行了验证,实验结果表明本文模型在预测精度方面优于其他基线模型。
通用矩阵乘法(GEMM)是线性代数中最重要的运算,来自不同科学领域的许多应用程序都将其关键部分转换为使用GEMM。GEMM 广泛应用于大模型、机器学习、科学计算和信号处理等等领域。特别是半精度的批处理GEMM (即FP16)一直是许多深度学习框架的核心操作。本文提出了一种半精度批处理GEMM (HGEMM)的GPU优化方案。分块策略方面,该方案提供矩阵大小亲和的分块策略,保证每个波前分配到相同的工作量和计算量;线程同时计算多个矩阵乘法,提高计算单元的利用率。访存优化方面:以多读数据为代价,为每个线程分配相同访存量以便于编译器优化,保证访存和计算时间相互掩盖。对于矩阵尺寸小于16的极小尺寸批处理HGEMM,本文利用4x4x4的Matrix Core和其对应的分块方案,在提升访存性能的同时减少计算的浪费,并提供是否使用共享内存的选项来达到最高性能。本文在AMD GPU MI210平台上将该方案与rocBLAS的两个算子进行了性能对比,结果表明,该方案在AMD GPU MI210上平均性能为rocBLAS hgemm batched的4.14倍,为rocBLAS gemm ex batched的4.96倍。尤其对于极小尺寸批处理HGEMM平均性能为rocBLAS hgemm batched的18.60倍,为 rocBLAS gemm ex batched的14.02倍。
随着大语言模型的快速发展,信息检索中的文本匹配和文本扩展技术均取得了显著进展。其中,查询扩展和文档扩展是信息检索中两种重要的增强文本表征的方法。目前主流的文本扩展方法均利用大语言模型来实现。然而,大语言模型生成的文本和人工创作的文本在语言多样性和风格上有很大区别,这种差异可能会影响查询文档相关性的计算,最终导致整个信息检索过程的准确度下降。为了解决此问题,该文提出一种基于双向文本扩展的信息检索方法(BTE)。首先,采用零样本提示使大语言模型生成文档的伪查询和查询的伪文档;然后,计算伪查询和伪文档之间的语义相似度;最后,把原始查询-文档的相似度得分和伪查询-伪文档的语义相似度加权融合,得到最终的文档排序结果。在两个公开数据集DL19、DL20上的实验证明,BTE方法在NDCG@10、P@10和MRR@10等多个评价指标上均显著优于基准模型。因此,该文提出的双向文本扩展方法能够进一步增强查询与文档之间的相关性匹配,从而对整个信息检索系统性能产生一定程度的提升。
随着健康意识的提高和竞技体育的普及,球类运动训练的科技化和专业化已成为发展趋势。在足球训练中,精确的射球轨迹模拟和个性化训练方案设计成为亟待解决的关键问题。本研究建立了一种智能弹道轨迹仿真足球辅助训练机器人系统,结合了射球机构、视觉采集、数据分析和运动控制等技术,旨在提升训练的科学性和有效性。该系统设计并实现了基于全向移动的三轴云台射球机器人,能够灵活调整射球角度和位置,以适应不同的训练需求。通过优化的RMSProp算法,该机器人实现了反向求解发射参数的功能,使偏航角和俯仰角能够根据目标位置进行精确调整。实验结果表明,机器人在各种训练条件下的射球进球点误差小于0.45m,理论轨迹与实际轨迹的均方根误差小于7.5cm,验证了系统的鲁棒性和精确性。此外,我们建立了详细的射球数据集,为后续的数据科学和人工智能研究提供了重要资源。这一研究推动了足球训练的智能化发展,为运动员提供了更为科学的训练工具,促进了足球运动的整体水平提升。
实时的视觉和精细的力觉融合交互算法是实现虚拟手术训练中精准“手感”的关键。以骨科手术中关键的骨铣削操作为例,首先采用Tri-dexel模型表示骨和医用铣刀,通过布尔运算和快速表面重建及渲染算法实现虚拟骨铣削操作过中的实时几何变形计算;接着,结合医用铣刀的几何参数,提出基于微元切削力的骨铣削力觉交互模型,利用骨与医用铣刀Tri-Dexel模型之间布尔运算的结果,快速实现对瞬时未变形切屑厚度的精确求解;同时,通过槽切实验完成对切削力系数的辨识,并对该力觉模型进行验证分析,实现虚拟骨铣削操作过程中的力觉渲染;最后,基于上述算法搭建骨科虚拟手术训练系统,开展实验对视觉与力觉融合交互算法进行测试与评估。结果表明:力觉模型的预测结果与实验测量结果吻合较好,力平均相对误差在7%以下,该算法能够同时满足30 Hz的视觉刷新频率以及1 kHz的力觉刷新频率要求,所搭建的骨科虚拟手术训练系统能够为用户提供高沉浸的虚拟骨铣削操作训练,可有效提高用户的手眼协调能力。
基于质心偏移的矢量叠加磁轮临界吸附力计算理论。该理论综合考虑了传统的滑移失效、脱落失效、倾覆失效以及极少被研究的滑转失效等多种失效模式,有效解决了传统吸附力计算精度低所导致的吸附失稳问题。首先,基于机器人底盘结构,建立了四种吸附不失稳对应的静力学模型,并结合静力学耦合关系提出了矢量叠加原理。该原理充分考虑了执行机构运动过程中质心偏移对吸附稳定性的影响,为磁轮临界吸附力的精确计算提供了理论依据。其次,基于现有水下焊接机器人的永磁吸附底盘进行实例计算,通过Matlab求解静力学结果,总结最大质心偏移的底盘在不同空间角度下的临界吸附力变化规律。最后,通过搭建实验场地测试机器人在不同作业工况下的吸附稳定性。实验结果表明,基于质心偏移的矢量叠加原理能有效提高水下焊接机器人吸附稳定性,为后续磁吸附底盘的设计和磁力优化提供了新的理论支持。
采用计算流体动力学(CFD)方法对气体轴承-转子系统进行流场特性仿真时,气膜厚度是至关重要的结构参数之一,但由于零件加工过程中产生的形状、尺寸误差以及系统装配造成的偏差等原因,导致实际气膜与理想设计气膜在空间形貌及尺度上都存在一定的偏差,进而影响数值解算结果的可靠性及准确性。本论文提出流场有效气膜厚度的概念,通过双向流固耦合数值仿真模拟与实验结果对比分析及修正,最终确定合理的等效气膜厚度。研究结果表明:采用双向流固耦合数值模拟方法可揭示气膜流场瞬态特性及转子姿态的变化规律,并对气体轴承-转子系统是否能够安全运行进行预判和评估,节省了实验测试成本;采用转子倾斜角作为对比分析特征,为数值仿真结果和实验测试结果二者之间的系统性能偏差分析提供了直观的参考依据;等效气膜厚度的建立可最大程度上简化数值仿真模型,提高数值仿真效率,同时其结果又具有一定的可靠性;以供气压力0.6MPa,单边稳态加载力80N为例,通过误差分析和逼近,循环建立和修正流固耦合仿真模型中预估的等效气膜厚度,最终实现了将系统倾斜角相对误差控制5%以内,极大提高了数值模拟仿真结果与实际工程系统性能的一致性,进而为气体轴承-转子仿真系统在结构设计、性能预测及评估中的应用提供了可靠方法及依据。
为了提升高减比准双曲面齿轮综合传动性能,提出了一种基于齿面主动设计技术的齿面接触迹线大倾斜设计方法。首先预置多个接触迹线倾斜程度不同的齿面印痕,分别预置其接触椭圆长半轴和接触迹线长度,并对小轮共轭齿面进行抛物线修形,得到符合预置齿面参数的齿面。然后结合齿面接触分析(TCA)和齿面承载接触分析(LTCA)技术,获得各齿面的传动误差幅值(TE)、承载传动误差幅值(ALTE)、齿面载荷分布情况、齿根弯曲应力幅值及齿面闪温幅值,并分析接触迹线长度的变化对这些性能参数的影响。最后根据结论选取一个最终的目标修形齿面,分析其综合性能,并与原始齿面作比较。算例表明,对于一副齿数比为5:75的高减速比准双曲面齿轮,在齿面接触迹线大倾斜情况下,其长度越长,齿面接触应力越小,齿根弯曲应力与齿面闪温也随之减小。目标齿面边缘接触情况减弱,齿根最大弯曲应力降低了12%,接触应力分布更均匀;齿面最高闪温下降6.3%,胶合承载能力提升。修行后的目标齿面接触区性能更加优良,承载能力更好,且综合传动性能显著提升。
建筑照明插座能耗异常检测能够有效提高建筑能源效率,对实施建筑能源优化措施、实现建筑节能管控的研究具有重要意义。由于建筑照明插座系统能耗很大程度上受到建筑内部人员随机行为的影响,本文针对照明插座时间序列数据中存在的噪声较多和特征难以提取的问题,提出了一种基于长短时记忆-自编码(LSTM-AE)的建筑照明插座能耗异常检测方法。在决策树划分工况的基础上,通过深度学习方法自动学习正常样本与异常样本的重构误差,实现建筑能耗异常样本的无监督识别与检测。结果显示,迭代次数、神经元数和激活函数都会对模型属性产生较大影响。工作日上班时段、非工作日上班时段和非工作日非上班时段的电耗数据都呈正态分布。工作日工况下的电耗数据更稳定,因此其异常检测精度高于非工作日工况下的精度。所提方法的平均精确率、召回率、F1-Score分别为91.23%、90.87%、90.80%,能够有效实现建筑照明插座系统能耗异常检测。
示踪气体稀释法能克服电厂大直径烟囱流场复杂导致的烟气流量测量结果误差大的问题,该方法具有可溯源性,且测量原理与常规速度面积法不同,具有作为一种流量测量现场校准方法的潜力。因此,本文基于数值模拟方法分析示踪气体稀释法在火电厂烟囱烟气流量测量中的可行性与准确性,并在此基础上,研究示踪剂稀释比例、示踪剂注入截面对测量的影响,此外还设置不同示踪剂取样方案来评估测量的稳定性。结果表明:在约9D高度处,示踪剂与烟气实现充分混合;示踪剂稀释比例过高或过低均会影响示踪剂与烟气的混合效率;示踪剂在烟道处注入能有效减小流量测量误差。烟囱注入时,各取样方案的误差波动范围较大,但三点取样有较稳定且良好的测量表现,在3D、8D、12D上的测量误差分别仅为-3.59%、-0.69%、-1.05%;烟道注入时各取样方案的流量测量误差均不超过±10%,且三点取样时,在3D、8D、12D截面上的测量误差分别仅为0.98%、-0.52%、0.21%,均在±1%以内。本研究证明了示踪气体稀释法在大直径烟囱烟气流量测量中的可行性与准确性。
针对5G通讯基站高功耗模块的热管理,提出了一种蒸发腔与均热板流道相互连通的吹胀型铝质均热板相变传热模组,通过搭建性能测试平台实验研究了其在不同充液率下的传热性能,并分析了相变工质沸腾状态、流量分配对均温性能及散热效率的影响,同时探讨了不同侧向倾角下热源表面温度分布的变化规律。研究结果表明:在输入功率不超过400W的条件下,随着充液率的增加,相变传热模组的总体热阻表现出先减小后增大的趋势,并在充液率为15%时热阻最低,最低总体热阻为0.2116℃/W;适当降低充液率会使均热板底部的液态工质沸腾,从而促进气态工质在不同均热板间平均分配,进而提高相变传热模组的散热效率及温度均匀性;在输入功率分别为350W和400W的条件下,当充液率从30%减少至15%时,均热板间的温度标准差分别降低40.92%和34.04%,温度均匀性得到显著改善;当相变传热模组倾角改变时,蒸发腔内液位的偏移会使热源温度分布不均,且这种不利影响还会随着倾角的增大而加剧,当倾角为10°时,热源表面的最大温差扩大至水平放置时的11.7倍以上。