华南理工大学学报(自然科学版) ›› 2019, Vol. 47 ›› Issue (11): 71-77.doi: 10.12141/j.issn.1000-565X.190224

• 生物学 • 上一篇    下一篇

非序列比对软件 SeqDistK 在微生物菌群分类中的应用

刘雪梅 黄管大 黄天来
  

  1. 华南理工大学 物理与光电学院,广东 广州 510640
  • 收稿日期:2019-05-05 修回日期:2019-05-26 出版日期:2019-11-25 发布日期:2019-10-02
  • 通信作者: 刘雪梅(1975-),女,博士,副教授,主要从事生物信息学研究. E-mail:liuxm@scut.edu.cn
  • 作者简介:刘雪梅(1975-),女,博士,副教授,主要从事生物信息学研究.
  • 基金资助:
    国家自然科学基金资助项目( 11722546,11675226)

Application of Sequence Alignment-Free Comparison-Based SeqDistK to Microbial Flora Clustering

LIU Xuemei HUANG Guanda HUANG Tianlai   

  1. School of Physics,South China University of Technology,Guangzhou 510640,Guangdong,China
  • Received:2019-05-05 Revised:2019-05-26 Online:2019-11-25 Published:2019-10-02
  • Contact: 刘雪梅(1975-),女,博士,副教授,主要从事生物信息学研究. E-mail:liuxm@scut.edu.cn
  • About author:刘雪梅(1975-),女,博士,副教授,主要从事生物信息学研究.
  • Supported by:
    Supported by the National Natural Science Foundation of China( 11722546,11675226)

摘要: 用非序列比对方法研究微生物菌群的分类是目前生物信息学中的一个热门领域. 文中开发了一种基于 k-mer 统计的非序列比对软件 SeqDistK. SeqDistK 可通过开源网站 https: ∥github. com /htczero /SeqDistK 获得,具有在微生物菌群分类中运算速度快、准确
度高的优点,而且具有适应大型数据研究的潜力. 利用 SeqDistK 对 63 条已知分类的 16S rRNA 基因序列所算出的距离矩阵进行菌群聚类,发现所得聚类结果与已有的分类基本一致. SeqDistK 能准确地对微生物菌群样本序列进行聚类,可作为一个有效的从分子生物学角度分析系统发育学的软件.

关键词: k-mer, 非序列比对, SeqDistK, 16S rRNA, 聚类

Abstract: Using sequence alignment-free comparison method to study microbial flora classification is a hot topic in bioinformatics. In this paper,SeqDistK,the sequence alignment-free comparison software based on k-mer statis- tics,is presented. The open source software package can be obtained from https: ∥github. com /htczero /SeqDistK. SeqDistK has the advantages of fast calculation and high accuracy in microbial flora classification,and has the po- tential to adapt to large-scale data research. By adopting SeqDistK to cluster 63 distance matrices of 16S rRNA gene sequences,it is found that the clustering results are basically consistent with the existing classifications,which means that SeqDistK can accurately classify microbial flora clustering samples and provides effective software for phylogenetic analysis in molecular biology.

Key words: k-mer, sequence alignment-free comparison, SeqDistK, 16S rRNA, clustering

中图分类号: