华南理工大学学报(自然科学版) ›› 2007, Vol. 35 ›› Issue (8): 123-126.

• 数学科学 • 上一篇    

基于隐马尔可夫模型的DNA 序列识别

罗泽举1 李艳会2 宋丽红3 朱思铭2   

  1. 1.重庆工商大学 计算机科学与信息工程学院,重庆 400067; 2. 中山大学 数学与计算科学学院,广东 广州 510275 ;3 重庆工商大学 实验实习中心,重庆 400067
  • 收稿日期:2006-08-26 出版日期:2007-08-25 发布日期:2007-08-25
  • 通信作者: 罗泽举(1965-) ,男,博士,主要从事机器学习,生物信息学研究 E-mail:luozeju@126.com
  • 作者简介:罗泽举(1965-) ,男,博士,主要从事机器学习,生物信息学研究
  • 基金资助:

    国家自然科学基金资助项目(10371135) ;重庆市教育委员会科学技术研究项目( KJ0707022 )

Recognition of DNA Sequences ßased on Hidden Markov Models

Luo Ze-juLi Yan-hui2  Song Li-hong Zhu Si-ming2   

  1. 1. School of Computer Science and 1nformation Engineering, Chongqing Tech. and Business Univ. , Chongqing 400067 , China;2. School of Mathematics and Computational Science , Sun Yat-Sen Univ. , Guangzhou 510275 , Guangdong , China;3. Center of Experiment and Practice , Chongqing Tech. and Business Univ. , Chongqing 400067 , China
  • Received:2006-08-26 Online:2007-08-25 Published:2007-08-25
  • Contact: 罗泽举(1965-) ,男,博士,主要从事机器学习,生物信息学研究 E-mail:luozeju@126.com
  • About author:罗泽举(1965-) ,男,博士,主要从事机器学习,生物信息学研究
  • Supported by:

    国家自然科学基金资助项目(10371135) ;重庆市教育委员会科学技术研究项目( KJ0707022 )

摘要: 利用隐马尔可夫模型训练中不同结构的DNA 序列的L 值分布范围不同的特点,对传统多类投票模型进行改进,提出一种优于传统算法的快速训练算法,该算法只需训练出一类隐马尔可夫模型参数.对DNA 内含子和外显子序列进行识别,平均识别率达到了90.8%. 与支持向量机相比,隐马尔可夫模型在解决多分类问题方面具有优势,不但计算时间少,而且识别率高.

关键词: 隐马尔可夫模型, DNA 序列, 内含子, 外显子, 识别, 快速训练算法

Abstract:

According to the distribution variation of the L value with the DNA sequence structure in the hidden Markov model (HMM) training and by improving the traditional multiclass vote model , a fast training algorithm superior to the traditional one is proposed to recognize the intron and exon of the DNA sequence. The proposed algorithm only need to train one class of parameter of HMM model and the average accuracy rate of it reaches 90. 8%. As compared with the support vector machine , the proposed HMM model is more feasible in the multiclass classification and is of less time cost and higher recognition rate.

Key words: hidden Markov model, DNA sequence, intron, exon, recognition, fast training algorithm