基于自适应帧采样算法和BLSTM的视频转文字研究

doi:10.3969/j.issn.1000-565X.2018.01.014

华南理工大学学报(自然科学版) ›› 2018, Vol. 46 ›› Issue (1): 103-111.doi: 10.3969/j.issn.1000-565X.2018.01.014

基于自适应帧采样算法和BLSTM的视频转文字研究

张荣锋宁培阳肖焕侯史景伦邱威

华南理工大学电子与信息学院

收稿日期:2017-05-16 修回日期:2017-06-18 出版日期:2018-01-25 发布日期:2017-12-01
通信作者: 张荣锋( 1980-) ，男，博士生，主要从事机器学习和视频处理研究 E-mail:rongfzhang@qq.com
作者简介:张荣锋( 1980-) ，男，博士生，主要从事机器学习和视频处理研究
基金资助:
国家自然科学基金资助项目( 61671213) ;
广州市人体数据科学重点实验室资助项目( 201605030011)

Research on Video Description Based on Adaptive Frame Sampling Algorithm and Bidirectional Long Short-Term Memory

ZHANG Ｒongfeng NING Peiyang XIAO Huanhou SHI Jinglun QIU Wei

School of Electronic and Information Engineering，South China University of Technology

Received:2017-05-16 Revised:2017-06-18 Online:2018-01-25 Published:2017-12-01
Contact: 张荣锋( 1980-) ，男，博士生，主要从事机器学习和视频处理研究 E-mail:rongfzhang@qq.com
About author:张荣锋( 1980-) ，男，博士生，主要从事机器学习和视频处理研究
Supported by:
The National Natural Science Foundation of China ( 61671213)

摘要/Abstract

摘要： 视频转文字（video to text）是计算机视觉领域一项新的挑战性任务。针对这个技术难题，提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法。自适应帧采样算法能够动态地调整采样率，以提供尽量多的特征来训练模型。结合双向长短时记忆模型，能有效学习视频中前面帧和未来帧的相关信息。同时，用于训练的特征是来自深度卷积神经网络的特征，使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息。帧信息的融合又增加了特征的种类，从而提升了实验效果。结果显示，在M-VAD和MPII-MD两个数据集中，本文的方法在METEOR中的评分均值分别为7.8和9.1，相对原S2VT模型分别提高了15.7%和28.2%，也提升了视频转文字的语言效果。

关键词: 视频转文字, 自适应帧采样, 双向长短时记忆模型, 深度卷积神经网络, 帧信息的融合

Abstract: Video to text is a new challenging task in the field of computer vision. Focusing on this technical difficulty, this paper proposes an adaptive sampling algorithms and employs the Bidirectional Long-Short Term Memory (BLSTM) model and deep BLSTM based on the video features extracting by deep Convolutional Neural Networks. Since this doubly deep networks structure can learn the spatial and temporal correlation description of the videos, it is able to obtain the global dependency information from space and time domain. Experimental results showed that by using the datasets of M-VAD and MPII-MD, the proposed framework could achieve the average score of 7.8 and 9.1 in METEOR, respectively. Comparing to the original S2VT model, the proposed method outperformed 15.7% and 28.2% by average score and it also improved the descriptions of the videos.

Key words: video to text, adaptive frame sampling, bidirectional LSTM, deep convolutional neural networks, fusion information of frames.

中图分类号:

TP391

张荣锋宁培阳肖焕侯史景伦邱威. 基于自适应帧采样算法和BLSTM的视频转文字研究[J]. 华南理工大学学报(自然科学版), 2018, 46(1): 103-111.

ZHANG Ｒongfeng NING Peiyang XIAO Huanhou SHI Jinglun QIU Wei. Research on Video Description Based on Adaptive Frame Sampling Algorithm and Bidirectional Long Short-Term Memory[J]. Journal of South China University of Technology(Natural Science Edition), 2018, 46(1): 103-111.

[1]	李海燕, 尹浩林, 李鹏, 等. 基于密集特征推理及混合损失函数的修复算法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 99-109.
[2]	刘怡俊, 王嘉达, 钟仕杰, 等. 基于统一标签矩阵的快速多视图聚类[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 110-119.
[3]	王世勇, 乾国康, 李迪, 等. 面向边缘特征的实时模板匹配方法[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 1-10.
[4]	李家春, 李博文, 林伟伟. AdfNet：一种基于多样化特征的自适应深度伪造检测网络[J]. 华南理工大学学报(自然科学版), 2023, 51(9): 82-89.
[5]	马晓亮, 安玲玲, 邓从健, 等. 基于行业词表的自动语音转写后优化技术[J]. 华南理工大学学报(自然科学版), 2023, 51(8): 118-125.
[6]	林志坚, 黄萍, 郑明魁, 等. 基于FPGA的HEVC熵编码语法元素硬件加速设计[J]. 华南理工大学学报(自然科学版), 2023, 51(8): 110-117.
[7]	韩乐, 江怡华. 鲁棒截断L1-L2全变分稀疏恢复模型[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 45-53,140.
[8]	朱铮宇, 罗超, 贺前华, 等. 基于唇重构与三维耦合CNN的多视角音唇一致性判别[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 70-77.
[9]	陆璐, 赖锦雄. 基于胶囊网络和注意力机制的智能合约漏洞检测方法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 36-44.
[10]	林志坚, 丁永强, 杨秀芝, 等. HEVC帧内率失真优化预测模式的并行流水线硬件设计[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 95-103.
[11]	叶峰, 陈彪, 赖乙宗. 基于特征空间嵌入的对比知识蒸馏算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 13-23.
[12]	马碧云, 吴港, 刘娇蛟, 等. 基于稀疏脉冲采样的低复杂度血流速度估计算法[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 63-69.
[13]	刘宇鹏, 张雷. 融合遗忘和知识点重要度的认知诊断模型[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 54-62.
[14]	张艳, 许昌康, 曹丽青, 等. 基于互信息解耦表示的跨域压力足迹图像检索[J]. 华南理工大学学报(自然科学版), 2023, 51(5): 78-85.
[15]	田晟, 宋霖, 赵凯龙. 基于偏移注意力机制和多特征融合的点云分类[J]. 华南理工大学学报(自然科学版), 0, (): 0-.

基于自适应帧采样算法和BLSTM的视频转文字研究

Research on Video Description Based on Adaptive Frame Sampling Algorithm and Bidirectional Long Short-Term Memory

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价