细胞生物学/基因及其结构

维基教科书,自由的教学读本

细胞内遗传信息的传递及调控 - 基因及其结构 - 基因转录和转录后加工 - 蛋白质的生物合成 - 基因表达的调控 - 基因的信息传递与医学

基因及其信息流向[编辑]

基因是DNA分子中含有特定遗传信息的苷酸序列[编辑]

细胞的生物学性状是由其遗传物质所携带的遗传信息决定的,绝大多数的遗传物质是DNA, 少数噬菌体和病毒的遗传物质是RNA。基因(gene)是细胞内遗传物质的最小功能单位,是负载有特定遗传信息的DNA片段。在原核细胞中,一个基因就是DNA分子的一个片段;但在真核细胞,一个基因可以是DNA分子的一个片段或是若干片段的组合。基因能够编码生物活性物质,其产物为各种RNA和蛋白质。为了区分调控途径中的成员和被调控的基因,目前一般将基因分为结构基因(structural gene)和调控基因(regulatory gene)。结构基因是指编码非调控因子的任何蛋白质和RNA的基因,其表达产物如结构蛋白、酶、RrNA和RtNA等;而调控基因则通过编码蛋白质或RNA来调节其他基因的表达。
构成DNA遗传信息的物质基础是DNA序列中的核甘酸排列顺序,不同的生物细胞中DNA所载有的遗传信息大小不一,基因数目不同,所合成的蛋白质种类不同,这也是生物物种丰富多彩的原因。蛋白质是生命活动的执行者,通过转录和翻译,基因DNA的编码序列决定了蛋白质的一级结构,从而决定蛋白质的功能。通过DNA的复制,基因所携带的遗传信息代代相传。
基因组(genome)是指细胞或生物体的一套完整的单倍体遗传物质,是所有染色体上全部基因和基因间的DNA的总和,它含有一个生物体进行各种生命活动所需要的全部遗传信息。原核细胞没有细胞核结构,其基因组以裸露DNA或RNA的形式存在于细胞中,其基因组结构较真核细胞简单。真核细胞基因组的复杂性和信息量的庞大程度远远超过原核细胞。研究表明,由于DNA存在编码区与非编码区,基因组的大小并不一定代表基因组的复杂性。例如,人类基因组约有3.O×l09 bp,但只有2万~3万个基因,仅是大肠杆菌(E.coli ) 4000个基因的5~7倍;而蛛姬和百合花的DNA数量却是人类基因组的10倍,但这些生物的复杂程度显然比不上人类。

中心法则揭示了基因的信息流向[编辑]

基因是遗传信息的贮存形式。在细胞内,遗传信息的流向一般是DNA→RNA→蛋白质。首先以DNA作为模板合成RNA分子,接着RNA分子指导特定蛋白质合成,此过程称为基因表达(gene expression)。基因表达的终产物是蛋白质(也可以是RNA)。遗传信息从DNA到RNA再到蛋白质的流动,称为分子生物学的中心法则(central dogma)。中心法则包括:①复制(replication) ,即遗传信息可由亲代DNA通过半保留复制传递给子代DNA;②转录(transcription),即以DNA为模板合成RNA的过程;③翻译(translation)以RNA(mRNA)为模板指导蛋白质生物合成的过程,即由mRNA的核昔酸序列转变为蛋白质的氨基酸序列。后来的研究发现了逆转录现象,逆转录酶能催化以RNA为模板合成DNA,从而证明了遗传信息亦可反向传递,即从RNA→DNA;另外,一些RNA病毒可以RNA为模板复制出新的RNA,这些现象都是对中心法则的有益补充。
在遗传信息传递的过程中,RNA分子起很重要的作用。负责翻译为蛋白质的RNA, 像信使那样携带着来自DNA的遗传信息到胞质核糖体指导合成蛋白质,因而称之为信使RNA(messenger RNA, mRNA)。除mRNA外,核糖体RNA(ribosomal RNA, rRNA)和转运RNA(transfer RNA, tRNA)都是基因表达的终产物,它们不能被翻译成蛋白质,但为蛋白质合成所需要。细胞中还有一些小分子的RNA在遗传信息的表达调控中起重要作用。

基因的结构及特点[编辑]

原核细胞的基因结构较为简单[编辑]

大多数原核细胞中只有一个DNA分子,即一条染色体。原核细胞基因组DNA的绝大部分可编码蛋白质,只有小部分不转录,为非编码区。在原核细胞中,功能相关的结构基因串联排列,受上游共同调控区的控制,同时转录和翻译,最终形成功能相关的几种蛋白质。如大肠杆菌中与乳糖代谢有关的酶有三种:β-半乳糖苷酶、β-半乳糖苷通透酶和β-半乳糖苷乙酰转移酶,编码这三种酶的结构基因分别为LacZLacYLacA ,串联排列于大肠杆菌DNA的某一区段上。
位于结构基因上游的是启动子(promoter)序列,它是RNA聚合酶识别和结合的部位,可以控制在同一条DNA上紧密连接的一个或几个基因的转录。原核生物的启动子大约有55个碱基对长,其中包含有转录的起始点和RNA聚合酶的识别部位及结合部位。起始点是DNA模板链上开始进行转录作用的位点,以"+1"标识,在DNA模板上,从起始点开始顺着转录方向的区域称为下游;从起始点逆着转录方向的区域称为上游。识别部位是RNA聚合酶的G因子识别DNA分子的部位,约有6个碱基对,其中心位于上游-35bp处,所以称为-35区,其共有序列是5'-TTGACA-3'。结合部位是指在DNA分子上与RNA聚合酶核心酶紧密结合的序列,其长度大约是7个碱基对,其中心位于起始点上游的-lObp处,因此将此部位称为-10区。多种启动子的-10区具有高度的保守性和一致性,它们有一个共有序列或共同序列,为5'-TATAAT-3',又称为Pribnow盒(pribnow box)。在Pribnow盒中的DNA双链容易解开,利于RNA聚合酶的进入而促使转录作用的起始。
原核细胞结构基因序列是连续的(没有内含子成分),在转录后不需要剪切和加工。

真核细胞基因是不连续的断裂基因[编辑]

与原核细胞相比,真核细胞基因组DNA含量要大得多,如人单倍体基因组DNA含量是大肠杆菌的近700倍。除了数量多,真核细胞的基因结构也更复杂。首先,基因序列由编码区(coding region)和非编码区(non-coding region)组成,编码区(编码序列)是不连续的,被非编码区(非编码序列)所隔断,因而真核细胞基因也称为断裂基因(split gene)。其次,在真核基因组中存在许多重复序列,有些碱基序列反复出现可达百万次以上。此外,真核细胞基因大小相差悬殊,如人血红蛋白-珠蛋白基因全长约1 700bp, 而DMD(Duchenne's muscular dystrophy, 假肥大型肌营养不良)基因全长可达2300kb。真核细胞基因结构的复杂性赋予了真核生物更为精细的功能。
1、真核细胞基因由多个功能区域组成 真核基因一般是由若干内含子和外显子构成的不连续镶嵌结构的基因。除内含子和外显子之外,完整的基因还包括位于编码区上游的启动子和基因末端的终止子。
(1) 外显子和内含子:原核细胞的基因往往是连续的,DNA经转录后即可得到直接编码蛋白质的序列,而真核细胞基因中编码序列常常被非编码序列隔断,转录后需加工切去非编码序列成为成熟的RNA, 才能进行蛋白质的合成。通常人们把基因内部能够被转录,并能指导蛋白质生物合成的编码序列称为外显子(exon),把在基因内部能够被转录,但不能指导蛋白质生物合成的非编码的序列称为内含子(intron)。一个断裂基因可由若干个外显子和若干个内含子组成,基因中的外显子与内含子间隔排列,其转录的终产物为mRNA。
在内含子的5'端多以GT开始,3'端多以AG结束,称GT-AG法则,是普遍存在于真核细胞基因中RNA剪接的识别信号。在RNA剪接加工后形成的成熟mRNA的5'端和3'端,都各有一段由30到数百个核苷酸组成的非翻译区(untranslated region, UTR)。
(2)启动子:启动子是基因上游的DNA序列,是控制转录的关键部位。启动子中含有特征性的核心序列,真核生物典型的启动子是由TATA盒及其上游的CAAT盒和(或)GC盒组成。
在转录起始位点上游-25~-35bp区段是由7~10个碱基组成而以TATA为核心的序列,称为TATA盒(TATA box)。这一部位是RNA聚合酶及其他蛋白质因子的结合位点,与转录起始的准确定位有关。若TATA盒缺失,转录合成的RNA可有不同的5'端。位于TATA盒的上游,距转录起始点-70~-80bp区含有CCAAT序列,在-80~-llObp区含有GGGCGG序列,这两段保守序列分别称CAAT盒(CAAT box)和GC盒(GC box), 目前统称为上游启动子序列(upstream promoter sequence, UPS)或上游启动子元件(upstream promoter element, UPE), 它们是许多蛋白质转录因子的结合位点。CAAT盒和GC盒是基因有效转录所必需的DNA序列,主要控制转录的起始频率,基本不参与起始位点的确定。
(3) 终止子:终止子(terminator)是存在于基因末端具有转录终止功能的特定顺序。转录后形成发夹结构,使RNA聚合酶从模板上脱离,终止转录。
2、基因家族是真核细胞中—组来源相同、功能相关的基因 真核细胞基因结构最显著的特征之一是存在许多基因家族(gene family)。基因家族是真核细胞基因组中来源相同、结构相似、功能相关的一组基因,是由一个祖先基因经重复和变异形成的。按照在基因组中的分布不同,基因家族可分为二类,一类是基因家族的成员成簇存在,串联排列于特殊的染色体区段上,形成基因簇(gene cluster), 它们常可同时转录,合成功能相关或相同的产物,如组蛋白、rRNA基因家族;另一类是基因家族成员分散存在,广泛地分布于整个染色体,甚至可存在于不同的染色体上,如干扰素、珠蛋白等基因家族。
在基因家族中,有些成员不能产生有功能的基因产物,称为假基因(pseudogene) , 它们或是不能转录,或是转录后生成无功能的基因产物。假基因在核昔酸序列上与有功能的基因相似,它们可能来自同一祖先基因,只是在进化过程中某些成员的核昔酸序列中发生缺失、倒位、点突变而成为无功能的假基因。大多数基因家族都有假基因的存在,但数量很少。
3、真核基因组中含有大量的DNA重复序列 在真核细胞基因组中,编码蛋白质的基因一般只有一个或几个拷贝,这称为单一序列(unique sequence)。除此之外,基因组中还含有大量的功能未知、有多个拷贝的DNA重复序列(repetitive sequence)。在动物细胞中,多达一半的DNA由DNA重复序列组成。根据DNA重复程度的不同,将其分为以下两种:
(1) 中度重复序列:中度重复序列(moderately repetitive sequence)由相对较短的序列组成,重复次数在10~1000之间。一般认为,中度重复序列属非编码序列,散在分布于基因组中,与基因调控有关。如人类Alu家族(Alu family )是人类基因组中含量最丰富的中度重复序列,占人类基因组的3%~6%,长300bp,Alu家族成员约有30万个,因每个Alu序列中隐含有一个限制性内切酶AluI的识别序列ACCT而得名。Alu序列的功能可能与转录调节、hnRNA加工有关。
某些编码功能性RNA和蛋白质的基因在基因组中的重复次数也达几十到几百次,它们串联排列于基因组的一定区域,如rRNA基因和tRNA基因等,从严格意义上讲,它们也属于中度重复序列。
(2)高度重复序列:高度重复序列(highly repetitive sequence)由基因组中非常短的序列(一般小于lOObp)组成,其在基因组中的重复次数在几千次以上, 一般组成长的串联重复序列,常成簇分布于染色体着丝粒区及染色体的端部,如卫星DNA。高度重复序列在哺乳动物基因组中的比例一般小于10%, 可能与基因表达调控及染色体结构维持有关,具体功能尚不清楚。
在生物进化过程中,来自自然环境和体内多种因素的影响,可引起DNA结构的改变,也就是基因发生突变。虽然细胞内具有修复DNA损伤的功能,但并非所有的损伤都能被修复。一些未能修复的损伤有可能形成可遗传的突变。如果突变是发生在结构基因中,将使基因编码的蛋白质发生结构改变,失去原有的功能,导致疾病的发生。基因突变是生物进化和分化的分子基础,也是某些疾病的基础,是生物界普遍存在的现象。