华南理工大学学报(自然科学版) ›› 2012, Vol. 40 ›› Issue (6): 56-62,69.

• 电子、通信与自动控制 • 上一篇    下一篇

基于多面体时空梯度描述子的人体动作识别

姚莉秀 王小念 杨杰 刘佳   

  1. 上海交通大学 图像处理与模式识别研究所∥系统控制与信息处理教育部重点实验室,上海 200240
  • 收稿日期:2011-08-25 修回日期:2011-11-22 出版日期:2012-06-25 发布日期:2012-05-03
  • 通信作者: 姚莉秀(1973-) ,女,副教授,主要从事模式识别、数据挖掘及其应用研究. E-mail:lxyao@ sjtu.edu.cn
  • 作者简介:姚莉秀(1973-) ,女,副教授,主要从事模式识别、数据挖掘及其应用研究.
  • 基金资助:

    国家自然科学基金资助项目( 2009DFA12870)

Human Action Recognition by Using Polyhedron Model-Based Spatio-Temporal Gradient Descriptor

Yao Li-xiu  Wang Xiao-nian  Yang Jie  Liu Jia   

  1. Institute of Image Processing and Pattern Recognition∥Key Laboratory of System Control and Information Processing of the Ministry of Education, Shanghai Jiaotong University,Shanghai 200240,China
  • Received:2011-08-25 Revised:2011-11-22 Online:2012-06-25 Published:2012-05-03
  • Contact: 姚莉秀(1973-) ,女,副教授,主要从事模式识别、数据挖掘及其应用研究. E-mail:lxyao@ sjtu.edu.cn
  • About author:姚莉秀(1973-) ,女,副教授,主要从事模式识别、数据挖掘及其应用研究.
  • Supported by:

    国家自然科学基金资助项目( 2009DFA12870)

摘要: 为检测出对噪声、镜头缩放更具鲁棒性的反映人体动作特征的时空兴趣点,首先提出了一种新的时空兴趣点检测器; 然后以检测出的时空兴趣点为中心,建立基于多面体模型的时空梯度描述子来进一步刻画人体动作在时空上的视觉特征; 再基于分层聚类树形结构、利用词袋方法对视频动作特征建立更大且更有效的码书; 最后将特征描述子与高层次的人工定义的动作属性相结合,采用隐支持向量机结合坐标下降法求解最终识别模型的局部最优解.在几种典型数据库上的实验结果表明,文中方法具有较高的人体动作识别率.

关键词: 动作识别, 时空兴趣点, 时空梯度, 词袋

Abstract:

In order to detect the spatio-temporal interest points that illustrate the characteristics of human action and possess robustness to noise and camera zooming,first,a novel detector for spatio-temporal interest points is proposed. Next,by centering on the detected spatio-temporal interest point,a polyhedron model-based spatio-temporal gradient descriptor is created to illustrate the spatio-temporal visual features of human action. Then,a larger and more efficient codebook of video action clips is constructed by using the Bag of Words method based on the hierarchical vocabulary tree. Finally,by integrating the descriptor with the high-level action attributes defined by human,the latent support vector machine combined with coordinate descent is adopted to find the local optimum of the prediction model. Experiments on some typical databases demonstrate that the proposed method achieves high recognition rate of human action.

Key words: action recognition, spatio-temporal interest point, spatio-temporal gradient, Bag of Words

中图分类号: