华南理工大学学报(自然科学版) ›› 2017, Vol. 45 ›› Issue (11): 106-111.doi: 10.3969/j.issn.1000-565X.2017.11.015
刘雪梅1 臧翔1 黄天来1 杨哲1,2 李文1 叶宇中1 胡珊3†
LIU Xue-mei1 ZANG Xiang1 HUANG Tian-lai1 YANG Zhe1,2 LI Wen1 YE Yu-zhong1 HU Shan3
摘要: 病毒与宿主细胞在遗传信息上具有相似的字模式(k-tuple),病毒的 DNA 序列与 其可感染的宿主细胞的 DNA 序列通过字模式的统计打分值往往比与随机宿主细胞的打 分值高,也就是病毒和其可感染的宿主细胞的 DNA 序列有一定的相似性. 基于此原理,文 中利用序列非比对统计方法 DS2 和 D*2 对病毒的 DNA 序列和宿主细胞的 DNA 序列基于 字模式进行比对打分,将打分值与获得的阈值进行比较,判断该病毒是否能感染宿主细 胞. 实验结果表明,当 k =5(k 为字模式的的大小)、马尔可夫阶次为 1 时,DS2 和 D*2 统计 量均能较好地反映病毒与宿主细胞在基因上的相似性,而且通过 ROC(受试者工作特征 曲线)获得的最佳阈值可以作为一种判断病毒是否可感染宿主细胞的方法.
中图分类号: