2022年计算机科学与技术

Select

1. 基于深度学习的无人机单目视觉避障算法

张香竹, 张立家, 宋逸凡, 等

华南理工大学学报(自然科学版) 2022, 50 (1): 101-108, 131. DOI: 10.12141/j.issn.1000-565X.210096

摘要（5197）

PDF（pc）（3578KB）（1071）

针对基于单目视觉的无人机（UAV）避障问题，本研究提出基于单目深度估计和目标检测的四旋翼自主避障方法。其中，单目深度估计模型提供障碍物像素级别的深度信息，目标检测模型提供障碍物的位置信息。单张红绿蓝（RGB）图像的深度图和目标检测结果由卷积神经网络（CNN）获得；图像的区域划分以目标检测结果为依据，区域深度以深度估计结果为计算依据；规划算法依据区域深度和区域划分结果计算无人机的线速度和角速度，实现无人机的自主避障。为验证算法的自主避障性能，采用Parrot Bebop2无人机对本研究提出的算法与直飞算法进行实飞对比实验。结果表明：本研究提出的算法可用于四旋翼无人机的低速自主避障。

相关文章 | 多维度评价 | 评论（0）

Select

2. 融合多尺度空洞卷积与反卷积的轻量化目标检测

易清明, 吕人毅, 石敏, 等

华南理工大学学报(自然科学版) 2022, 50 (12): 41-48. DOI: 10.12141/j.issn.1000-565X.220095

摘要（4001）

HTML （11）

PDF（pc）（2447KB）（586）

深度神经网络存在目标检测速度慢、参数量大的问题，不适用于算力有限但速度要求较高的移动应用场景。为了提高目标检测的推理速度，有效权衡目标检测任务的精度与速度，文中提出了一种融合多尺度空洞卷积与反卷积的轻量化目标检测网络MDDNet。首先，基于高效的单阶段多目标检测策略设计了轻量的目标检测基础网络，并引入深度可分离卷积，以进一步减少基础网络的参数量，加快图像特征提取的速度；然后在主干网络中添加两条基于多尺度空洞卷积的特征扩展旁路，分别连接在基础网络的最末端和次末端残差层的输出端，将两条旁路的特征输出到预测层进行特征融合，以增强较低层特征图的纹理特征；并且进一步引入了多尺度反卷积模块，连接于深层特征网络层，以增大特征图尺寸，再融合具有不同尺度的上一层的浅层特征图，以获得更多的特征语义信息和细节信息，提高检测精度；最后在预测层基于K均值算法优化先验框参数，使其与目标真实框更匹配，提高目标识别的准确率。实验结果表明：MDDNet的参数量约为7.21×10⁶，平均检测精度在KITTI、Pascal VOC数据集上分别为58.7%、76.0%，推理速度在两个数据集上分别达到55和52 f/s。因此，MDDNet在参数量、检测速度和检测精度上达到了较佳的平衡，可适用于移动端的实时目标检测。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

3. 基于机器阅读理解的BiLSTM-BiDAF命名实体识别

王洁, 夏晓明

华南理工大学学报(自然科学版) 2022, 50 (12): 80-88. DOI: 10.12141/j.issn.1000-565X.220013

摘要（3195）

HTML （13）

PDF（pc）（1576KB）（147）

命名实体识别是自然语言处理的一项基本任务，对信息提取、机器翻译等具有重要的意义和价值。目前命名实体识别通常使用序列标注方法对文本中单个句子的实体进行抽取，忽略了句子间的语义信息。基于机器阅读理解的命名实体识别方法借助问题编码了实体类别的重要先验信息，更加容易区分出相似的分类标签，降低了模型学习难度，但仍然只在句子级别建模，忽略了句子间的语义信息，容易造成不同句子中实体标注不一致的问题。为此，文中将句子级别的命名实体识别扩展到文本级别的命名实体识别，提出了一种基于机器阅读理解的BiLSTM-BiDAF命名实体识别模型。首先，为了充分挖掘文本的上下文特征，使用NEZHA获取全文语境信息，并进一步通过BiLSTM提取局部特征，以加强模型对局部依赖信息的捕获能力；然后，引入双向注意力机制学习文本与实体类别之间的语义关联；最后，设计基于门控机制的边界检测器加强实体边界的相关关系，预测出实体在文本中的位置，同时通过建立答案数量检测器，将无答案问题识别出来。在CCKS2020中文电子病历数据集和CMeEE数据集上的实验结果表明，文中构建的模型能有效地识别文本中的命名实体，F₁值可分别达到84.76%和57.35%。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

4. 基于度量学习的跨模态人脸检索方法

沃焱, 梁籍云, 韩国强

华南理工大学学报(自然科学版) 2022, 50 (6): 1-9. DOI: 10.12141/j.issn.1000-565X.210709

摘要（3149）

PDF（pc）（2022KB）（670）

度量学习是一种减少模态差异的重要技术，已有的基于度量学习的跨模态检索方法用于跨模态人脸检索任务时缺乏对视角差异和域差异的关注，并且在度量学习的过程中存在两个问题：缺乏对全局信息的学习和存在大量冗余三元组。文中提出了一种基于度量学习的跨模态共同表达生成算法，采用偏航角等变模块补偿偏航角差异获取具有鲁棒性的图像特征，使用多层注意力机制获取具有可分性的视频特征；结合全局三元组和局部三元组共同训练跨模态共同表达生成网络提升度量学习的一致性和准确性，同时通过半困难三元组筛选加速了损失函数的收敛；提出结合域校准和迁移学习作为域适应方法提升共同表达的泛化性。最终，在PB、YTC和UMD Faces三个人脸视频数据集中的实验结果证明了本文算法有效提升了跨模态人脸检索的准确性，通过少数样本微调跨模态共同表达生成网络有效提升了目标域图像跨模态检索的准确性。

相关文章 | 多维度评价 | 评论（0）

Select

5. 文档级关系抽取方法研究综述

周友华, 黄翰, 刘浩龙, 等

华南理工大学学报(自然科学版) 2022, 50 (4): 10-25. DOI: 10.12141/j.issn.1000-565X.210152

摘要（2744）

PDF（pc）（2465KB）（475）

关系抽取是自然语言处理领域的一项基础研究，抽取的结果可以用于知识图谱构建、人机问答、语义搜索等下游任务，具有广泛的应用场景和重要的研究价值。近年来，关系抽取取得了丰富的成果，但绝大多数研究局限于句子级关系抽取。研究表明，大量的关系无法通过单个句子提取，随着深度学习和自然语言处理技术的不断发展，文档级关系抽取研究工作迎来了新一轮的机遇和挑战。着重对近几年文档级关系抽取的研究进展进行分类和梳理，提炼出文档级关系抽取的一般技术路线图，分析文档级关系抽取研究的特征编码及特征聚合方法，同时介绍常用文档级关系抽取数据集和评测指标，并对未来的研究趋势进行展望。

相关文章 | 多维度评价 | 评论（0）

Select

6. 基于多尺度视觉Transformer的图像篡改定位

陆璐, 钟文煜, 吴小坤

华南理工大学学报(自然科学版) 2022, 50 (6): 10-18. DOI: 10.12141/j.issn.1000-565X.210603

摘要（2521）

PDF（pc）（2425KB）（262）

随着数字图像处理技术不断发展，图像篡改不再局限于图像拼接等单一手段，而是通过图像编辑软件后处理隐藏恶意篡改痕迹，导致现有传统算法和基于深度学习的定位方法效果不佳。针对现有图像篡改算法定位精度不高的问题，本文提出一种端到端基于多尺度视觉Transformer的图像篡改定位网络，该网络融合Transformer和卷积编码器提取篡改区域与非篡改区域的特征差异。多尺度Transformer对不同尺寸图像块序列的空间信息进行建模，从而使网络适应各种形状大小的篡改区域。实验结果表明，本文所提出的算法在CASIA和NIST2016测试集的F1分数分别为0.431和0.877,AUC值分别为0.728和0.971，相比当前的主流算法具有较为明显的性能提升。而且，本文所提算法在应对JPEG压缩攻击具有较强的鲁棒性。

相关文章 | 多维度评价 | 评论（0）

Select

7. 基于多模型集成的语义文本相似性判断

苏锦钿洪晓斌余珊珊

华南理工大学学报(自然科学版) 2022, 50 (4): 1-9. DOI: 10.12141/j.issn.1000-565X.210427

摘要（2318）

PDF（pc）（1147KB）（195）

作为目前自然语言处理及人工智能领域的主流方法，各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异，导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游任务中的学习能力，结合语义文本相似性判断任务的特点提出一种多模型集成方法MME-STS（Multi-Model Ensemble for Semantic Textual Similarity），给出相应的模型总体架构及相应的特征表示，并针对多模型的集成问题分别提出基于平均值、基于全连接层训练和基于Adaboost算法的三种不同的集成策略。实验结果表明，MMF-STS在国际语义评测SemEval 2014任务4的SICK和SemEval 2017 STS-B数据集上的Pearson共关系值和Spearman相关系数值均超过单个预训练语言模型方法。

相关文章 | 多维度评价 | 评论（0）

Select

8. 基于融合分布图网络的触觉压力足迹分类方法

张艳, 高梓健, 许昌康, 等

华南理工大学学报（自然科学版） 2022, 50 (1): 91-100. DOI: 10.12141/j.issn.1000-565X.210128

摘要（2231）

PDF（pc）（928KB）（524）

随着生物特征识别技术的发展，触觉压力足迹分类的研究得到越来越多的应用，而传统的分类方法比较耗费人力。针对触觉压力足迹分类，本研究提出了一种融合分布图网络的触觉压力足迹分类方法。首先通过嵌入模块提取触觉压力足迹图像的卷积特征并采用范数正则化方法得到样本相关性矩阵，再将样本与标签one-hot向量构成融合相关性矩阵，通过自注意模块增加特征信息，经分布模块得到新的特征分布图，构建标记样本和未标记样本间的关联矩阵，最后将触觉压力足迹图像的卷积特征和特征分布图作为更新模块的输入，实现触觉压力足迹分类。实验结果表明，与小样本分类方法相比，本方法在Mini-Imagenet、Tiered-Imagenet数据集上的5-way1-shot实验分类准确率分别达到71.71%和74.34%，同时在触觉压力左右足数据集上的5-way1-shot和5-way5-shot实验分类准确率分别达到88.87%和98.66%。

相关文章 | 多维度评价 | 评论（0）

Select

9. 基于多分支注意力孪生网络的目标跟踪算法

余陆斌, 田联房, 杜启亮

华南理工大学学报(自然科学版) 2022, 50 (12): 30-40. DOI: 10.12141/j.issn.1000-565X.210541

摘要（2224）

HTML （23）

PDF（pc）（4180KB）（95）

目标跟踪在计算机视觉任务中有重要的意义。近年来随着深度学习的发展，基于孪生网络的目标跟踪算法因其优异的性能而被广泛应用。然而，现有基于孪生网络的跟踪算法在目标发生较大形变、低分辨率、复杂背景等情况下的跟踪性能通常会显著下降。为此，文中提出了一种基于多分支注意力孪生网络的目标跟踪算法。该算法首先构建了超分辨率模块和数据增强模块，分别对目标模板进行超分辨率和数据增强，提升目标模板的特征表征能力；然后利用3个主干网络分别提取原始目标模板、超分辨率目标模板和数据增强目标模板的特征，并进行特征融合，同时在主干网络中应用了通道注意力模块和空间注意力模块，以提升特征提取能力；最后，将融合后的特征图与待搜索区域的特征图输入区域生成网络模块，得到目标跟踪信息。实验结果表明，该算法在OTB100数据集上的精确率为0.919、成功率为0.707，在VOT2018数据集上的准确率为0.642、鲁棒性为0.149，在实际场景中的运行速度每秒至少20次，说明该算法具有优异的跟踪性能，并且在各种复杂场景下都具有良好的鲁棒性。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

10. 基于交互式连接图注意力网络的知识图谱补全方法

陆以勤, 潘周双, 张洋, 等

华南理工大学学报(自然科学版) 2022, 50 (12): 13-19. DOI: 10.12141/j.issn.1000-565X.220384

摘要（2028）

HTML （33）

PDF（pc）（1179KB）（418）

知识图谱为许多智能信息服务应用提供了底层支持，包括智能搜索、公共安全、金融、医疗等领域，但现有的知识图谱通常是不完整的，知识图谱补全已经成为亟需解决的问题。现有的知识图谱补全方法忽略了邻居节点以及关系所富含的重要信息，往往只是简单地将邻居节点和关系拼接起来，忽略了不同关系和邻居节点对于节点有着不同的重要性。为此，文中提出了一种基于交互式连接图注意力网络的知识图谱补全方法（ICGAT）。该方法首先通过寻找两跳邻居节点，挖掘出潜在可能的关系，扩充每个节点的三元组；然后将每个三元组中的关系与节点的特征融合，并且采用节点与邻居节点交互式连接的方法，用4个空间向量来表示交互式连接的关系；最后将交互式连接的向量输入图注意力网络，得到关系和邻居节点对该节点的权重，以此说明其重要性。为了有效地表示一对多、多对多等复杂关系的三元组，该方法使用RotatE模型作为预训练模型。在链接预测任务中的实验结果表明，ICGAT方法在WN18RR和FB15k-237数据集中的平均排名（MR）和排名前10命中率（HR@10）均有一定的提升，说明ICGAT能够提高链接预测任务的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

11. 基于Stacking集成学习的注塑件尺寸预测方法

宋建, 王文龙, 李东, 等

华南理工大学学报(自然科学版) 2022, 50 (6): 19-26. DOI: 10.12141/j.issn.1000-565X.210664

摘要（1989）

PDF（pc）（4236KB）（125）

机器学习算法能够处理高维和多变量数据，并在复杂和动态环境中提取数据中的隐藏关系，在注塑件尺寸预测中具有很好的应用前景。注塑件尺寸预测系统的性能取决于机器学习算法的选择，然而，传统的机器学习算法在实际应用中不能达到很好的预测效果。本文提出一种基于Stacking集成学习方法的融合模型，采用优化的特征选择方法，建立模型时通过对比不同的Stacking学习器组合方式，组合多种类型的学习器，从而得到预测性能最佳的模型。该模型在注塑件尺寸预测方面的性能较传统模型有了很大的提升，同时模型预测结果可根据特征解释回溯到实际生产中，为制造工艺和工序的优化提供决策指导。

相关文章 | 多维度评价 | 评论（0）

Select

12. 基于自适应采样的不平衡分类方法

陈琼谢家亮

华南理工大学学报(自然科学版) 2022, 50 (4): 26-34,45. DOI: 10.12141/j.issn.1000-565X.210267

摘要（1970）

PDF（pc）（2027KB）（78）

针对传统重采样方法大多使用固定采样策略，无法根据模型的优化需求改变采样策略的问题，本文提出一种基于自适应采样的不平衡分类方法（Adaptive Sampling Imbalanced Classification，ASIC）。该方法根据分类模型在验证集上的表现动态调整训练集上不同类别样本的采样概率，使不同类别的采样概率由当前分类模型的需求动态决定。同时，该方法对少数类别给予额外的关注，在其余条件相同的情况下为少数类赋予更大的采样概率，以弥补少数类本身样本数量不足对分类模型造成的不良影响，从而提高分类模型对少数类的识别能力。实验结果表明，使用ASIC方法训练的分类模型在平均类准确率以及geometric mean上均比对比方法更好，且数据分布越不平衡，ASIC方法的优越性越明显。

相关文章 | 多维度评价 | 评论（0）

Select

13. 基于局部软约束优化的无人机航迹规划方法

陈朋, 江勇奇, 俞天纬, 等

华南理工大学学报(自然科学版) 2022, 50 (6): 27-36. DOI: 10.12141/j.issn.1000-565X.210452

摘要（1940）

PDF（pc）（6172KB）（85）

针对无人机在三维复杂场景中实现长距离航迹规划时存在效率不高的问题，本文提出了一种基于局部软约束优化的实时无人机航迹规划方法。该方法可分成以下两个步骤：首先，在theta*算法的基础上加入安全距离约束，同时利用转弯代价改进启发函数来减少无人机转弯所带来的时间消耗，最终生成由少量关键点组成的初始路径；其次，采用局部优化策略对初始路径中存在安全隐患的片段进行软约束优化，并利用贝塞尔曲线的速度特性进行时间分配，确保航迹的连续、平滑和动态可行性以及提升无人机的飞行效率。实验结果表明，本文方法在保证无人机安全的同时具有更短的飞行距离和飞行时间以及更好的规划效率，并且在实际的四旋翼飞行中得到验证。

相关文章 | 多维度评价 | 评论（0）

Select

14. 基于频率选择扩容的JPEG图像可逆信息隐藏技术

吕皖丽檀胜

华南理工大学学报（自然科学版） 2022, 50 (1): 109-121. DOI: 10.12141/j.issn.1000-565X.210062

摘要（1907）

PDF（pc）（2587KB）（306）

JPEG图像的可逆信息隐藏技术已被广泛利用，为了提高JPEG图像在可逆信息隐藏过程中的嵌入容量和嵌入效率，文中提出了一种基于频率选择扩容的可逆信息隐藏技术。首先对原始图像进行量化，生成若干个离散余弦变换（DCT）块，将DCT块根据块内是否含有±3和±4值的交流系数值分成两种类型，以选择不同的嵌入位置进行嵌入，并根据频率选择策略计算块内各位置的嵌入失真，按照嵌入失真排序后的频率选择嵌入位置并嵌入秘密信息。实验结果表明，文中的算法扩大了嵌入容量且减小了文件增加量。

相关文章 | 多维度评价 | 评论（0）

Select

15. 基于种子约束LDA的产品属性提取方法

陈可嘉, 郑晶晶

华南理工大学学报(自然科学版) 2022, 50 (6): 37-48,70. DOI: 10.12141/j.issn.1000-565X.210124

摘要（1824）

PDF（pc）（1838KB）（74）

为了从评论中分类提取产品属性，使得评论能够按照不同产品属性分别进行展示，提高消费者作出购买决策的效率，本文提出基于种子约束LDA（Latent Dirichlet Allocation)的产品属性提取方法。首先利用TF-IDF(Term Frequency–Inverse Document Frequency)算法自动提取关键词，作为属性种子集；其次通过文档初次重组和二次重组的方式，解决长文本多属性类共现问题和短文本稀疏性问题，并提高文档重组率；然后应用must-link和cannot-link两种种子约束来定义概率扩缩值，影响LDA的主题分配，使得训练结果更加合理；最后将种子约束LDA生成的主题映射到先验属性类别上。本文从属性类别、属性词等方面进行定性分析，从准确率、熵值、纯度等方面进行定量分析，验证本文方法的优势。

相关文章 | 多维度评价 | 评论（0）

Select

16. 基于贪吃蛇算法和部首识别的手写文本切分

付鹏斌董澳静杨惠荣

华南理工大学学报（自然科学版） 2022, 50 (1): 80-90. DOI: 10.12141/j.issn.1000-565X.210028

摘要（1676）

PDF（pc）（1180KB）（277）

针对手写中文文本交错、粘连、字内过分离等问题，提出一种基于贪吃蛇算法和部首识别的文本切分方法。首先，根据贪吃蛇算法建立文本原始切分轨迹，并依据多重规则优化切分路径；之后，基于粘连字符的轮廓和骨架提取候选粘连点，利用贪吃蛇算法进行二次切分；最后，对过切分字符，进行部首的笔段提取和识别，依据汉字结构确定合并方向，并结合几何置信度和识别置信度完成合并，得到最终正确的文本切分结果。以陕西省某高中试卷中1542行手写文本作为实验数据进行了算法验证，结果表明，该算法切分正确率可达到82.15%。

相关文章 | 多维度评价 | 评论（0）

Select

17. 用于动作识别的双流自适应注意力图卷积网络

杜启亮, 向照夷, 田联房, 等

华南理工大学学报(自然科学版) 2022, 50 (12): 20-29. DOI: 10.12141/j.issn.1000-565X.220055

摘要（1660）

HTML （15）

PDF（pc）（2386KB）（255）

人体动作识别因在公共安全方面具有重要的作用而在计算机视觉领域备受关注。然而，现有的图卷积网络在融合多尺度节点的邻域特征时，通常采用各阶邻接矩阵直接相加的方法，各项重要性一致，难以聚焦于重要特征，不利于最优节点关系的建立，同时采用对不同模型的预测结果求平均的双流融合方法，忽略了潜在数据的分布差异，融合效果欠佳。为此，文中提出了一种双流自适应注意力图卷积网络，用于对人体动作进行识别。首先，设计了能自适应平衡权重的多阶邻接矩阵，使模型聚焦于更加重要的邻域；然后，设计了多尺度的时空自注意力模块及通道注意力模块，以增强模型的特征提取能力；最后，提出了一种双流融合网络，利用双流预测结果的数据分布来决定融合系数，提高融合效果。该算法在NTU RGB+D的跨主体和跨视角两个子数据集上的识别准确率分别达92.3%和97.5%，在Kinetics-Skeleton数据集上的识别准确率达39.8%，均高于已有算法，表明了文中算法对于人体动作识别的优越性。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

18. 基于锚点图的低秩缺失多视图子空间聚类

刘小兰, 石宗宇, 叶泽慧, 等

华南理工大学学报(自然科学版) 2022, 50 (12): 60-70. DOI: 10.12141/j.issn.1000-565X.220069

摘要（1367）

HTML （15）

PDF（pc）（2961KB）（82）

经典的多视图聚类任务针对的是完整数据，然而实际任务中受限于信息的获取渠道，某些视图往往含有缺失数据，由此引出了缺失多视图聚类问题。针对此问题，现有的聚类模型大多基于非负矩阵分解或距离构造聚类图，存在着联合优化使解的性能得不到保障以及无法对全局结构进行充分刻画的不足。为了提升聚类图的性能，基于低秩子空间聚类和锚点图，文中提出了一种低秩缺失多视图子空间聚类算法ALIMSC。该算法先通过基于锚点图的缺失多视图聚类（APMC）算法得到数据的基准相似矩阵，将其嵌入低秩子空间聚类模型，通过升维对齐和加权融合的方法得到相似矩阵，再通过让相似矩阵与基准相似矩阵尽可能的一致来求得最终的聚类图。ALIMSC算法通过对每个视图的相似矩阵施加秩最小化约束来刻画高维数据的低维子空间分布，在原有锚点图的基础上进一步强调了数据的子空间算法结构，即聚类图中所体现的块对角性。在多个公开数据集上的实验结果表明，本文算法的聚类性能优于所对比的缺失多视图聚类算法。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

19. 基于残差注意力融合和门控信息蒸馏的图像修复

余映, 何鹏浩, 徐超越

华南理工大学学报(自然科学版) 2022, 50 (12): 49-59. DOI: 10.12141/j.issn.1000-565X.220025

摘要（1333）

HTML （7）

PDF（pc）（7978KB）（149）

图像修复在计算机视觉任务中具有重大的意义和价值。近年来，基于深度学习的图像修复模型被广泛应用于该领域中。但是现有的深度学习图像修复模型存在对破损图像中有效信息的利用不足和受破损图像中掩码信息干扰的问题，从而导致修复出的图像的部分结构缺失和部分细节模糊。为此，文中提出了基于残差注意力融合和门控信息蒸馏的图像修复模型。首先，该图像修复模型由生成器和鉴别器两部分组成，生成器的主干结构采用U-Net网络，由编码器和解码器组成；鉴别器采用马尔可夫鉴别器，由6个卷积层组成。然后，在编码器和解码器中分别构建残差注意力融合结构，以增强破损图像中有效信息的利用和减少掩码信息的干扰。最后，在编码器和解码器的跳跃连接中嵌入门控信息蒸馏模块，进一步提取待修复图像中的有效低级特征。在公开人脸和街景数据集上的实验结果表明：文中模型在语义结构和纹理细节方面具有更好的修复效果；文中模型的结构相似性、峰值信噪比、平均绝对值误差、最小平方误差和弗雷歇距离指标均优于5种对比模型，说明文中模型的修复质量优于对比模型。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

20. 基于自适应亮度调节的图像情感转换

邢晓芬, 李敏盛, 徐向民

华南理工大学学报(自然科学版) 2022, 50 (12): 1-12. DOI: 10.12141/j.issn.1000-565X.220165

摘要（1327）

HTML （59）

PDF（pc）（6379KB）（123）

常见的图像情感转换方法基于迁移图像颜色可以迁移图像情感的假设，但由于图像内容的影响，直接迁移图像颜色并不能完全迁移图像情感，而且需要先获得合适的参考图像，再进行图像颜色迁移，但在实际应用中，会面临情感上与目标图像情感相近、内容上与源图像相近的参考图像获取困难、颜色迁移时需考虑局部对象语义一致性等问题。为此，文中提出了一种基于自适应亮度调节的图像情感转换方法。该方法根据心理学中图像亮度与图像情感（又称愉悦度，简称V值）具有显著相关性，通过深度神经网络ISTNet自适应地调节亮度，将图像转换到目标图像情感。首先，从现有的图像情感数据集中获取一幅图像及其对应的真实V值，通过改变图像亮度，可获得一系列亮度不同的图像；然后，通过预训练图像V值回归器预测这些内容相同而亮度不同的图像对应的伪V值；最后，利用这些图像和伪V值训练ISTNet，以学习图像亮度调节和情感变化之间的内在联系。在实际应用时，无需任何参考图像，直接将待转换图像和目标V值输入神经网络ISTNet，就可以得到对应情感标签的输出图像。实验结果表明，该方法的图像情感转换性能优于现有的基于颜色的图像情感迁移方法。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

21. AFGSRec：一种自适应融合全局协同特征的社交推荐模型

蔡晓东, 曾志杨

华南理工大学学报(自然科学版) 2022, 50 (12): 71-79. DOI: 10.12141/j.issn.1000-565X.220180

摘要（1308）

HTML （7）

PDF（pc）（1245KB）（104）

以往的序列推荐方法通常从近期交易记录中捕获用户的消费偏好，忽略了全局交易信息和好友偏好对用户交易行为的影响，导致模型的推荐结果不够准确。针对以上问题，文中提出了一种自适应融合全局协同特征的社交推荐模型AFGSRec。首先，用异质图神经网络建模社交网络中的用户、历史交易信息，以捕获全局协同特征和好友之间的社交影响；接着，设计了一种基于选择机制的门图神经网络，以有效过滤与当前序列无关的节点转换信息，更准确地捕获用户当前偏好；然后，提出了一种自适应的特征融合方法，以动态捕获全局协同特征对用户偏好的影响，提高系统的推荐准确率；最后，将周期动态学习率用于模型训练，以更好地处理鞍点，提升模型的收敛速度。实验结果表明：AFGSRec具有较好的鲁棒性，命中率（HR）和平均倒数排名（MRR）都优于当前领先模型SERec，在Gowalla数据集上，HR@10、HR@20分别提升了1.91%和1.15%，MRR@10、MRR@20分别提升了5.05%和4.83%；在Delicious数据集上，HR@10、HR@20分别提升了2.45%和1.19%，MRR@10、MRR@20分别提升了4.84%和4.32%。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）