来宝网Logo

热门词:生物显微镜 水质分析仪 微波消解 荧光定量PCR 电化学工作站 生物安全柜

现在位置首页>技术资料首页>实验技术>实验技术>人类基因组 标准寡核苷酸库基因序列的选择和探针的设计

人类基因组 标准寡核苷酸库基因序列的选择和探针的设计

来宝网2007年7月30日 9:12 点击:2078

人类基因组 标准寡核苷酸库基因序列的选择和探针的设计

•  介绍:

人类基因组 标准寡核苷酸库针对人类基因组中 20,726个确证的基因设计了22,740个 70mer的寡核苷酸探针。每一个探针都经过了严格设计和优化,从而确保了基因表达阵列分析能得到非常好的结果。

人类基因组 标准寡核苷酸库以 60个384孔板的形式提供。每一孔含有600pmol的探针。每一板中都含有一个阴性对照。

人类基因组 标准寡核苷酸探针库中寡核苷酸探针序列从 NCBI人类标准序列数据库(Human Reference Sequence)(November 2002)中得到。其中包括了一组能够检测1300多个基因的选择性剪接mRNA异构物的探针组。

目标基因的精心选择和探针的严格设计对于任何一组寡核苷酸探针组都至关重要。本文将简要介绍 Illumina标准寡核苷酸探针组目标基因选择和探针设计的方法。

•  基因序列的选择和特点分析

2.1 人类基因

Illumina建立了一套生物信息学方案能够对选定的DNA和RNA序列信息整合成一个综合的基因信息库。这一信息库排除了冗余基因并包含有转录本结构信息,它对于设计高质量的全基因组基因表达探针组尤为必要。

这一数据库的建立有如下一些要求:

•  序列准确性( Sequence accuracy):从标准序列数据库中挑选的序列都准确可靠。

•  标注质量( Annotation quality): 经确证的标注优先于自动生成的标注。

•  稳定性及更新频率( Stability and update frequency ):基因鉴定的方法不同,稳定性也不同。自动生成的结果每一次公布时都可能不一样。而经过验证过的序列则有根可寻。我们在选择基因时都尽可能地从稳定的数据库中选择序列。

•  序列特异性:在基因特异性表达探针选择时避免使用相似的基因序列。

•  选择性剪接:提供各选择性剪接产物特异的探针,同时提供与某一基因不同剪接体都能杂交上的通用探针。

2.2 数据来源

数据主要来源于 NCBI的人类标准序列数据库。它由两部分独立的亚库组成,分别具有不同的质量和特点。

•  经确认的标准序列( C-REFSEQ)

这一资源库是基因序列信息的参照标准。 C-RefSeq用NCBI的LocusLink方法来支持基于合作的人工确认程序。每一基因序列在确认的不同阶段都有记录(例如预测期,提供期,核实期)。每一C-RefSeq转录本(用NM_前缀以便识别)都加上一个经人类基因命名委员会(Human Gene Nomenclature Committee, HGNC)同意的基因符号。通过对同一基因的不同选择性剪接产物的确认可以对生产相对与每一种RNA分子的标识。因此C-RefSeq RNA序列是高质量且稳定的数据库。它包含有超过15,300个基因的信息。

•  基因组评注数据库( Genome Annotation RefSeq,GA-REFSEQ)

GA-REFSEQ通过自动化处理完成,而不经过人工验证或修改。数据通过对转录本(如RefSeq RNAs及GenBank中的RNA和EST序列)的注释和基因预测算法(GenomeScan)得到。尽管人类基因组测序已快完成,而且普遍认为质量不错,但基因鉴定仍有得有失。GA-RefSeq转录本又被称为模式mRNAs,用XM_作为前缀以便识别。

我们用人类 ESTs来验证并进一步注释GA-SefSeq以使得序列更准确,并验证转录本结构。这提供了可选择的UniGene,它可以避免基因链中的错误和错聚(misclustering)。

2.3 选择性剪接基因(C-RefSeq)

Illumina序列选择方法有一部分是专门处理那些表达多种mRNA异构物的基因的。因为C-RefSeq的高质量和基因符号标注的一致性,我们可以把这一特性用于系统的筛选选择性剪接的基因表达探针。C-RefSeq中每个具有多种mRNA异构物的基因都通过传统的程序进行分析,识别出两种区域:

•  A(All-isoforms)区,所以选择性剪接产物都具备。

•  I(Isoform-specific)区,各选择性剪接产物特异区。

大多数选择性剪接的基因都包含一个 A区,大多数转录本都含有I区。这些区域有如下一些探针:

•  一个 A探针(每个基因一个探针,如果所有异构物都有一个相同区域;否则探针数为零):针对基因的所有已知转录异构物。

•  多个 I 探针(每个异构物一个探针,该异构物应具有足够的特异序列以设计特异探针): 针对每一特异转录异构物。

附录 1中给出了探针设计结果和一个实例。

2.4 推断基因的验证

GA-RefSeq模式mRNA序列通过已经验证的EST序列进行验证,以进一步确认其序列准确性并获得它的转录本结构。这一步骤一般分为两个阶段:

•  In-House确证人的ESTs

•  仅用序列已知的 cDNA文库中的EST序列进行确证(>300 ESTs)

•  仅用高质量的 EST序列

•  去掉很短的和很长的 EST序列

•  用 ESTS对GA-REFSEQ 序列进行分析

•  将 EST序列和GA-RefSeq进行比对

•  找出潜在的 EST chimeras

•  通过 ESTs鉴定序列区域

•  对每一 GA-RefSeq建立一个EST覆盖谱

•  检测 EST覆盖区域的突然变动(GA-RefSeq的错误碱基或潜在剪切位点)

这一方法有诸多优点

•  序列准确性( Sequence accuracy):要求基因组序列的所有碱基都分别被至少一个EST序列所确证,探针设计在高准确区。

•  链的决定( Strand determination):GA-RefSeq序列决定编码序列的高准确性

•  生物证据( Biological evidence): 用ESTs算法确认的结果是用于设计探针的区域很可能就是真正的mRNA。

2.5 序列特异性

所有转录本序列都和其它基因转录本相比较以确定不同基因的相似区域。用 BLAST和后处理工具在两个水平上进行鉴定:

•  总体的相似性大于某一长度

•  每一比对仅有一小段相同。

•  寡核苷酸探针选择。

一旦某一特定的转录序列被选择出来就需要建立寡核苷酸探针选择选择方案以实现杂交条件优化。

3.1 方法

首先,探针设计算法来评估转录本与探针互补的一段序列。这一内容包括下列信息:

•  与其他基因类似

•  序列复杂性

•  选择性剪接基因序列特异性区域

•  选择性剪接基因通用区域

•  EST覆盖区

一旦与设计区域互补的序列知道则要考虑评估所有可能的 70mers在互补区域,并根据以下条件选择最好的一个:

•  内部发夹结构的预测

•  杂交均一性融解温度 Tm值的预测。Tm值计算公式:

Tm = 81.5 + 16.6 log10[Na+] + 0.41 %GC – 500 / Length

[Na+] = 0.1 M

•  距离转录本 3’端的长度,解决cDNA合成中3‘偏好问题

附录 2中是序列选择和探针设计的流程图。

3.2 选择和设计结果

根据选择和设计的标准,合成的人类基因组 标准寡核苷酸库具有以下一些特点(表 1A和表1B):


附录 1:选择性剪切基因;设计结果和实例

结果:

在 C-RefSeq的1,399个选择性剪接基因中,我们成功的为1,310个基因设计了A和I探针。

•  1,277个基因含有针对于所有选择性剪接产物的A探针,

•  1,029个基因含有共2,037个针对于特定选择性剪接转录本的I探针

例子:

人 alpha-1-A-adrenergic receptor(ADR1A)是一个基因通过选择性剪接得到多个产物的例子。它是一个G蛋白耦连受体家族的一员,通过G蛋白Gq/11家族传递信号。这一基因经选择性剪接产生四个不同的转录本。它们编码四种C端不同但具有相似配体结合区的蛋白。

在人 类基因组 标准寡核苷酸库中针对这一基因有五个探针(表 2)。


附录 2:序列选择和探针设计流程

(来源: 来宝网 )


全年征稿 / 资讯合作

联系邮箱:kefu@labbase.net

版权与免责声明

  • 凡本网注明“来源:来宝网”的所有作品,版权均属于来宝网,转载请必须注明来宝网, //www.next-search.com,违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。