原核生物基因识别问题的相关分析

发布来源：发布时间：2017/01/18点击量：2192

原核生物基因识别问题的相关分析

杨汉铭

（河南师范大学附属中学，河南新乡 453000）

摘要：原核生物基因识别属于生物信息学的范畴，作为一门交叉性的学科，生物信息学中融入了对生物信息的解释、分析、分发、存储、处理和获取等多方面的内容，利用生物学、计算机科学和数学等工具，对大量数据中包含的生物学意义进行理解和阐述。通过分析DNA序列，有效分析蛋白质中非编码和编码序列的特征，以期提升蛋白质编码基因的识别率。简要阐述原核基因组中ORF及基因的结构特征，尝试提取描述基因特征的参量，通过分析重叠基因，有效设计自训练识别原核生物基因算法。

关键词：原核生物；基因识别；结构特征；蛋白质编码

中图分类号：Q93-33 文献标识码：A DOI：10.15913/j.cnki.kjycx.2017.01.038

在生物信息学领域中，基因识别是一项重要内容，通过分析基因序列，能够提取基因特征结构信息，得到相应的理论模型，设计识别算法，从而实现对计算机辅助基因的识别。在基因识别中，主要识别RNA基因、蛋白质编码基因。过去，采用生物学实验的方法确定基因及其结构，存在费用高、周期长等问题。因此，采用非实验的方法定位基因，确定基因结构，具有十分重要的意义。

1 Fisher判别法

过去，应用统计模式识别方法存在的一个问题，就是特征数或维数问题。基于此，逐渐产生了一种能够将特征空间维数降低的方法，其中一种较为常用的方法就是Fisher线性判别法。在这种方法中，在一条过原点的直线上投影d维空间的所有模式，从而形成在一起聚合的一个群，其在一维直线上可能存在混杂的投影。但是，如果转动这条支线，就能够在某个方向上很好地区分不同模式的投影。假设存在X₁，X₂ 2种模式样本集，各自的d维样本数为n₁，n₂，假设能够有效区分模式样本投影的直线正方向单位向量为W，丨W丨=1，在直线中，X₁，X₂的投影能够分别得到r₁，r₂ 2个集合，而y∈r_i，即x∈X_i在单位向量W中的投影，则y=W^TX。在Fisher先行判别方程中，对编码区的识别存在多维空间的一个超平面，用矢量c代表，其中包含了c₁，c₂……cm这m个组分，这个内容可以从2组样本中得出。其中，第一组g=1表示编码样本，第二组g=2则表示非编码样本。

2 蛋白质编码区的识别

在生物信息领域，蛋白质编码区的识别是一项十分重要的内容。通过训练已知蛋白质的正负样本，可确定识别标准，从而预测未知序列。随着基因识别算法的发展，对序列编码能力的尺度的衡量是基因识别算法中最重要的内容。但是，在实际应用中，对于原核生物基因的识别仍然存在不足。在提取过程中，重要的部分是参量，选择的参量应当恰当有效，同时，具有明确的统计学意义和生物学意义，并且具有足够高的识别率。在实际应用中，利用氨基酸不均匀度能够达到96.5%的识别率，GC含量的增加能够有效提升识别率。在不均匀度中发现了很多参量，例如密码子不均匀度、碱基不均匀度等，这些都能达到较高的识别率。其中，碱基含量不均匀度能够达到97.8%的识别率。而采用Bayes判别法、Fisher判别法等均能够达到不错的识别率。对于生成负样本，可通过随机两两交换基因碱基一万次、直接利用基因间序列、生成［0，3］的随机数等方法加以实现。采用这种方法识别蛋白质编码区，能够达到95%以上的识别率。

3 自训练原核生物基因识别

近年来，随着模式生物基因组、人来基因组的大规模测序，产生了大量未注释DNA序列。因此，为了自动注释原始序列，需要采用准确、快速的算法。在基因识别中，主要的问题是正确识别给定基因组的基因范围，以及其在基因组序列中的具体位置。目前，常用的基因识别方法是基于序列比对方法。这种方法基于同源蛋白质，具有相似的基因结构，是对其与已知基因未知序列相似性的比对进行判断和识别。不过，这种方法的局限性是显而易见的，一旦遇到不具有相近亲缘关系的新物种，这种方法就不能适用。所以，可采用自训练方法识别原核生物基因，也就是从头计算方法。在这种方法下，可以考虑基因结构保守性的特点，通过分析已知基因结构的特征，提取其中的信息参量，并基于相应理论模型设计算法，从而实现对原核生物基因的识别。

在基因识别中，除了原核基因识别以外，还包括真核基因识别，只是原核基因的结构更为简单，所以，识别原核生物基因意义更为重要。在识别原核生物基因时，ORF筛选是一项重要的工作，通过下载到某物种序列，寻找正反链中起始于TTG、GTG、ATG，终止于TGA、TAG、TAA的，长度在300 bp以上的，是3的倍数的ORF，共得到6个相位。在ORF的筛选中，排除非基因的ORF，并找出训练集，训练一组参量，识别筛选后的ORF。在筛选过程中，主要采用的方法有去短留长、信息熵相乘、出现频率、错位方差、碱基平均自信息、氨基酸自信息量等。

4 结束语

生物信息学是目前十分重要的学科之一，其包含了很多相关学科的知识和内容。原核生物基因识别作为生物信息学中的一个重要问题，近年来，通过不断的研究，取得了较大的进展。在识别过程中，Fisher是常用的判别方法。基于此识别蛋白质编码区，并用自训练方法识别原核生物基因，有良好的效果。

参考文献

［1］杜武英，黄江，胡旭初，等.猪带绦虫乳酸脱氢酶基因的序列分析、克隆表达和免疫学分析［J］.中国人兽共患病学报，2010（03）：246-251.

［2］郝志敏，申珅，李志勇，等.玉米大斑病菌Stga-2及其启动子的克隆与基因表达分析［J］.中国农业科学，2010（18）：3705-3712.

［3］谢兆辉，曾强成，沈亮，等.真核生物翻译过程中的mRNA质量控制［J］.生物化学与生物物理进展，2013（01）：22-29.

［4］朱丛睿，周明旭，朱国强.大肠埃希菌内参基因gapA克隆表达及抗体的制备与应用［J］.扬州大学学报（农业与生命科学版），2015（02）：14-18.

〔编辑：白洁〕

————————
本文已公开发表在《科技与创新》杂志2017年第1期

浏览次数27056