Warning: fopen(counter.dat) [function.fopen]: failed to open stream: Permission denied in /usr/home/qxu1142230042/htdocs/config/global.php on line 127

Warning: fputs(): supplied argument is not a valid stream resource in /usr/home/qxu1142230042/htdocs/config/global.php on line 129

Warning: fclose(): supplied argument is not a valid stream resource in /usr/home/qxu1142230042/htdocs/config/global.php on line 131
原核生物基因识别问题的相关分析
欢迎您来到《科技与创新》杂志!设为首页加入收藏

版权信息

国际标准刊号 ISSN 2095-6835
国内统一刊号 CN 14-1369/N

主 管 山西省科学技术协会
主 办 山西科技新闻出版传媒集团
出 版  山西科技期刊出版有限
        责任公司
 编    辑  《科技与创新》编辑部
 社  址 太原市长风东街15号

投稿邮箱 kjycx@188.com
           kjycxzzs@126.com

查稿电话 010-88909179
     0351-7537156

邮发代号  22-582
定  价 每册20元 

相关证书

精品论文

您现在的位置:首页 > 精品论文

原核生物基因识别问题的相关分析

发布来源:发布时间:2017/01/18点击量:1871

原核生物基因识别问题的相关分析

杨汉铭

(河南师范大学附属中学,河南 新乡 453000)


  :原核生物基因识别属于生物信息学的范畴,作为一门交叉性的学科,生物信息学中融入了对生物信息的解释、分析、分发、存储、处理和获取等多方面的内容,利用生物学、计算机科学和数学等工具,对大量数据中包含的生物学意义进行理解和阐述。通过分析DNA序列,有效分析蛋白质中非编码和编码序列的特征,以期提升蛋白质编码基因的识别率。简要阐述原核基因组中ORF及基因的结构特征,尝试提取描述基因特征的参量,通过分析重叠基因,有效设计自训练识别原核生物基因算法。

关键词:原核生物;基因识别;结构特征;蛋白质编码

中图分类号:Q93-33              文献标识码:A        DOI:10.15913/j.cnki.kjycx.2017.01.038


在生物信息学领域中,基因识别是一项重要内容,通过分析基因序列,能够提取基因特征结构信息,得到相应的理论模型,设计识别算法,从而实现对计算机辅助基因的识别。在基因识别中,主要识别RNA基因、蛋白质编码基因。过去,采用生物学实验的方法确定基因及其结构,存在费用高、周期长等问题。因此,采用非实验的方法定位基因,确定基因结构,具有十分重要的意义。

1  Fisher判别法

过去,应用统计模式识别方法存在的一个问题,就是特征数或维数问题。基于此,逐渐产生了一种能够将特征空间维数降低的方法,其中一种较为常用的方法就是Fisher线性判别法。在这种方法中,在一条过原点的直线上投影d维空间的所有模式,从而形成在一起聚合的一个群,其在一维直线上可能存在混杂的投影。但是,如果转动这条支线,就能够在某个方向上很好地区分不同模式的投影。假设存在X1X2 2种模式样本集,各自的d维样本数为n1n2,假设能够有效区分模式样本投影的直线正方向单位向量为W,丨W丨=1,在直线中,X1X2的投影能够分别得到r1r2 2个集合,而yri,即xXi在单位向量W中的投影,则y=WTX。在Fisher先行判别方程中,对编码区的识别存在多维空间的一个超平面,用矢量c代表,其中包含了c1c2……cm这m个组分,这个内容可以从2组样本中得出。其中,第一组g=1表示编码样本,第二组g=2则表示非编码样本。

2  蛋白质编码区的识别

在生物信息领域,蛋白质编码区的识别是一项十分重要的内容。通过训练已知蛋白质的正负样本,可确定识别标准,从而预测未知序列。随着基因识别算法的发展,对序列编码能力的尺度的衡量是基因识别算法中最重要的内容。但是,在实际应用中,对于原核生物基因的识别仍然存在不足。在提取过程中,重要的部分是参量,选择的参量应当恰当有效,同时,具有明确的统计学意义和生物学意义,并且具有足够高的识别率。在实际应用中,利用氨基酸不均匀度能够达到96.5%的识别率,GC含量的增加能够有效提升识别率。在不均匀度中发现了很多参量,例如密码子不均匀度、碱基不均匀度等,这些都能达到较高的识别率。其中,碱基含量不均匀度能够达到97.8%的识别率。而采用Bayes判别法、Fisher判别法等均能够达到不错的识别率。对于生成负样本,可通过随机两两交换基因碱基一万次、直接利用基因间序列、生成[0,3]的随机数等方法加以实现。采用这种方法识别蛋白质编码区,能够达到95%以上的识别率。

3  自训练原核生物基因识别

近年来,随着模式生物基因组、人来基因组的大规模测序,产生了大量未注释DNA序列。因此,为了自动注释原始序列,需要采用准确、快速的算法。在基因识别中,主要的问题是正确识别给定基因组的基因范围,以及其在基因组序列中的具体位置。目前,常用的基因识别方法是基于序列比对方法。这种方法基于同源蛋白质,具有相似的基因结构,是对其与已知基因未知序列相似性的比对进行判断和识别。不过,这种方法的局限性是显而易见的,一旦遇到不具有相近亲缘关系的新物种,这种方法就不能适用。所以,可采用自训练方法识别原核生物基因,也就是从头计算方法。在这种方法下,可以考虑基因结构保守性的特点,通过分析已知基因结构的特征,提取其中的信息参量,并基于相应理论模型设计算法,从而实现对原核生物基因的识别。

在基因识别中,除了原核基因识别以外,还包括真核基因识别,只是原核基因的结构更为简单,所以,识别原核生物基因意义更为重要。在识别原核生物基因时,ORF筛选是一项重要的工作,通过下载到某物种序列,寻找正反链中起始于TTG、GTG、ATG,终止于TGA、TAG、TAA的,长度在300 bp以上的,是3的倍数的ORF,共得到6个相位。在ORF的筛选中,排除非基因的ORF,并找出训练集,训练一组参量,识别筛选后的ORF。在筛选过程中,主要采用的方法有去短留长、信息熵相乘、出现频率、错位方差、碱基平均自信息、氨基酸自信息量等。

4  结束语

生物信息学是目前十分重要的学科之一,其包含了很多相关学科的知识和内容。原核生物基因识别作为生物信息学中的一个重要问题,近年来,通过不断的研究,取得了较大的进展。在识别过程中,Fisher是常用的判别方法。基于此识别蛋白质编码区,并用自训练方法识别原核生物基因,有良好的效果。

参考文献

[1]杜武英,黄江,胡旭初,等.猪带绦虫乳酸脱氢酶基因的序列分析、克隆表达和免疫学分析[J].中国人兽共患病学报,2010(03):246-251.

[2]郝志敏,申珅,李志勇,等.玉米大斑病菌Stga-2及其启动子的克隆与基因表达分析[J].中国农业科学,2010(18):3705-3712.

[3]谢兆辉,曾强成,沈亮,等.真核生物翻译过程中的mRNA质量控制[J].生物化学与生物物理进展,2013(01):22-29.

[4]朱丛睿,周明旭,朱国强.大肠埃希菌内参基因gapA克隆表达及抗体的制备与应用[J].扬州大学学报(农业与生命科学版),2015(02):14-18.

〔编辑:白洁〕

————————
本文已公开发表在《科技与创新》杂志2017年第1期

投稿邮箱:kjycx@188.com / kjycxzzs@126.com   查稿电话:010-88909179 / 0351-7537156
   联系地址:北京市清华大学84-84信箱 学术部     /    太原市长风东街15号 编辑部       
版权所有 | 《科技与创新》杂志编辑部       京ICP备08000836号-1

浏览次数38824

技术支持:优诚互联