2022年计算机科学与技术
深度神经网络存在目标检测速度慢、参数量大的问题,不适用于算力有限但速度要求较高的移动应用场景。为了提高目标检测的推理速度,有效权衡目标检测任务的精度与速度,文中提出了一种融合多尺度空洞卷积与反卷积的轻量化目标检测网络MDDNet。首先,基于高效的单阶段多目标检测策略设计了轻量的目标检测基础网络,并引入深度可分离卷积,以进一步减少基础网络的参数量,加快图像特征提取的速度;然后在主干网络中添加两条基于多尺度空洞卷积的特征扩展旁路,分别连接在基础网络的最末端和次末端残差层的输出端,将两条旁路的特征输出到预测层进行特征融合,以增强较低层特征图的纹理特征;并且进一步引入了多尺度反卷积模块,连接于深层特征网络层,以增大特征图尺寸,再融合具有不同尺度的上一层的浅层特征图,以获得更多的特征语义信息和细节信息,提高检测精度;最后在预测层基于K均值算法优化先验框参数,使其与目标真实框更匹配,提高目标识别的准确率。实验结果表明:MDDNet的参数量约为7.21×106,平均检测精度在KITTI、Pascal VOC数据集上分别为58.7%、76.0%,推理速度在两个数据集上分别达到55和52 f/s。因此,MDDNet在参数量、检测速度和检测精度上达到了较佳的平衡,可适用于移动端的实时目标检测。
人体动作识别因在公共安全方面具有重要的作用而在计算机视觉领域备受关注。然而,现有的图卷积网络在融合多尺度节点的邻域特征时,通常采用各阶邻接矩阵直接相加的方法,各项重要性一致,难以聚焦于重要特征,不利于最优节点关系的建立,同时采用对不同模型的预测结果求平均的双流融合方法,忽略了潜在数据的分布差异,融合效果欠佳。为此,文中提出了一种双流自适应注意力图卷积网络,用于对人体动作进行识别。首先,设计了能自适应平衡权重的多阶邻接矩阵,使模型聚焦于更加重要的邻域;然后,设计了多尺度的时空自注意力模块及通道注意力模块,以增强模型的特征提取能力;最后,提出了一种双流融合网络,利用双流预测结果的数据分布来决定融合系数,提高融合效果。该算法在NTU RGB+D的跨主体和跨视角两个子数据集上的识别准确率分别达92.3%和97.5%,在Kinetics-Skeleton数据集上的识别准确率达39.8%,均高于已有算法,表明了文中算法对于人体动作识别的优越性。
命名实体识别是自然语言处理的一项基本任务,对信息提取、机器翻译等具有重要的意义和价值。目前命名实体识别通常使用序列标注方法对文本中单个句子的实体进行抽取,忽略了句子间的语义信息。基于机器阅读理解的命名实体识别方法借助问题编码了实体类别的重要先验信息,更加容易区分出相似的分类标签,降低了模型学习难度,但仍然只在句子级别建模,忽略了句子间的语义信息,容易造成不同句子中实体标注不一致的问题。为此,文中将句子级别的命名实体识别扩展到文本级别的命名实体识别,提出了一种基于机器阅读理解的BiLSTM-BiDAF命名实体识别模型。首先,为了充分挖掘文本的上下文特征,使用NEZHA获取全文语境信息,并进一步通过BiLSTM提取局部特征,以加强模型对局部依赖信息的捕获能力;然后,引入双向注意力机制学习文本与实体类别之间的语义关联;最后,设计基于门控机制的边界检测器加强实体边界的相关关系,预测出实体在文本中的位置,同时通过建立答案数量检测器,将无答案问题识别出来。在CCKS2020中文电子病历数据集和CMeEE数据集上的实验结果表明,文中构建的模型能有效地识别文本中的命名实体,F1值可分别达到84.76%和57.35%。
常见的图像情感转换方法基于迁移图像颜色可以迁移图像情感的假设,但由于图像内容的影响,直接迁移图像颜色并不能完全迁移图像情感,而且需要先获得合适的参考图像,再进行图像颜色迁移,但在实际应用中,会面临情感上与目标图像情感相近、内容上与源图像相近的参考图像获取困难、颜色迁移时需考虑局部对象语义一致性等问题。为此,文中提出了一种基于自适应亮度调节的图像情感转换方法。该方法根据心理学中图像亮度与图像情感(又称愉悦度,简称V值)具有显著相关性,通过深度神经网络ISTNet自适应地调节亮度,将图像转换到目标图像情感。首先,从现有的图像情感数据集中获取一幅图像及其对应的真实V值,通过改变图像亮度,可获得一系列亮度不同的图像;然后,通过预训练图像V值回归器预测这些内容相同而亮度不同的图像对应的伪V值;最后,利用这些图像和伪V值训练ISTNet,以学习图像亮度调节和情感变化之间的内在联系。在实际应用时,无需任何参考图像,直接将待转换图像和目标V值输入神经网络ISTNet,就可以得到对应情感标签的输出图像。实验结果表明,该方法的图像情感转换性能优于现有的基于颜色的图像情感迁移方法。
经典的多视图聚类任务针对的是完整数据,然而实际任务中受限于信息的获取渠道,某些视图往往含有缺失数据,由此引出了缺失多视图聚类问题。针对此问题,现有的聚类模型大多基于非负矩阵分解或距离构造聚类图,存在着联合优化使解的性能得不到保障以及无法对全局结构进行充分刻画的不足。为了提升聚类图的性能,基于低秩子空间聚类和锚点图,文中提出了一种低秩缺失多视图子空间聚类算法ALIMSC。该算法先通过基于锚点图的缺失多视图聚类(APMC)算法得到数据的基准相似矩阵,将其嵌入低秩子空间聚类模型,通过升维对齐和加权融合的方法得到相似矩阵,再通过让相似矩阵与基准相似矩阵尽可能的一致来求得最终的聚类图。ALIMSC算法通过对每个视图的相似矩阵施加秩最小化约束来刻画高维数据的低维子空间分布,在原有锚点图的基础上进一步强调了数据的子空间算法结构,即聚类图中所体现的块对角性。在多个公开数据集上的实验结果表明,本文算法的聚类性能优于所对比的缺失多视图聚类算法。
以往的序列推荐方法通常从近期交易记录中捕获用户的消费偏好,忽略了全局交易信息和好友偏好对用户交易行为的影响,导致模型的推荐结果不够准确。针对以上问题,文中提出了一种自适应融合全局协同特征的社交推荐模型AFGSRec。首先,用异质图神经网络建模社交网络中的用户、历史交易信息,以捕获全局协同特征和好友之间的社交影响;接着,设计了一种基于选择机制的门图神经网络,以有效过滤与当前序列无关的节点转换信息,更准确地捕获用户当前偏好;然后,提出了一种自适应的特征融合方法,以动态捕获全局协同特征对用户偏好的影响,提高系统的推荐准确率;最后,将周期动态学习率用于模型训练,以更好地处理鞍点,提升模型的收敛速度。实验结果表明:AFGSRec具有较好的鲁棒性,命中率(HR)和平均倒数排名(MRR)都优于当前领先模型SERec,在Gowalla数据集上,HR@10、HR@20分别提升了1.91%和1.15%,MRR@10、MRR@20分别提升了5.05%和4.83%;在Delicious数据集上,HR@10、HR@20分别提升了2.45%和1.19%,MRR@10、MRR@20分别提升了4.84%和4.32%。