生物化學與分子生物學/真核基因的結構與功能

維基教科書,自由的教學讀本

真核基因與基因組 - 真核基因的結構與功能 - 真核基因組的結構與功能
DNA是基因的物質基礎,基因的功能實際上是DNA的功能。基因的功能包括:

  • 利用4種鹼基的不同排列荷載遺傳信息;
  • 通過複製將所有的遺傳信息穩定、忠實地遺傳給子代細胞,在這一過程中,體內外環境均可導致隨機發生的基因突變,這些突變是生物進化的基礎;
  • 作為基因表達(gene expression)的模板,使其所攜帶的遺傳信息通過各種RNA和蛋白質在細胞內有序合成而表現出來。基因的功能通過兩個相關部分信息而完成:一是可以在細胞內表達為蛋白質或功能RNA的編碼區(coding region)序列;二是為表達這些基因(即合成RNA)所需要的啟動子 (promoter)、增強子 (enhancer)等調控區(regulatory region)序列。 單個基因的組成結構及一個完整的生物體內基因的組織排列方式統稱為基因組構(gene organization)。

真核基因的基本結構[編輯]

基因的基本結構包含編碼蛋白質或RNA的編碼序列(coding sequence)及相關的非編碼序列,後者包括單個編碼序列間的間隔序列以及轉錄起始點後的基因5'-端非翻譯區、3'-端非翻譯區。與原核生物相比較,真核基因結構最突出的特點是其不連續性,被稱為斷裂基因(split gene)或割裂基因(interrupted gene)。
如果將成熟的mRNA分子序列與其基因序列(即DNA序列)比較,可以發現並不是全部的基因序列都保留在成熟的mRNA分子中,有一些區段經過剪接(splicing)被去除。在基因序列中,出現在成熟 mRNA 分子上的序列稱為外顯子(exon);位於外顯子之間、與 mRNA 剪接過程中被刪除部分相對應的間隔序列則稱為內含子(intron)。每個基因的內含子數目比外顯子要少1個。內含子和外顯子同時出現在最初合成的 mRNA 前體中,在合成後被剪接加工為成熟 mRNA 。 如全長為7.7kb的雞卵清蛋白基因有8個外顯子和7個內含子,最初合成的mRNA 前體與相應的基因是等長的,內含子序列被切除後的成熟 mRNA 分子的長度僅為1.2kb。不同的基因中外顯子的數量不同,少則數個,多則數十個。外顯子的數量是描述基因結構的重要特徵之一。
原核細胞的基因基本沒有內含子。高等真核生物絕大部分編碼蛋白質的基因都有內含子,但組蛋白編碼基因例外。 此外,編碼 rRNA 和一些 tRNA 的基因也都有內含子。 內含子的數量和大小在很大程度上決定了高等真核生物基因的大小。低等真核生物的內含子分布差別很大,有的酵母的結構基因較少有內含子,有的則較常見。在不同種屬中,外顯子序列通常比較保守,而內含子序列則變異較大。外顯子與內含子接頭處有一段高度保守的序列,即內含子5'-末端大多數以 GT 開始,3'-末端大多數以 AG 結束,這一共有序列 (consensus sequence) 是真核基因中RNA 剪接的識別信號。
為方便敘述基因編碼序列和其調節序列的關係,人們約定將一個基因的 5'-端稱之為上游,3'-端稱為下游;為標定 DNA信息的具體位置,將基因序列中開始 RNA 鏈合成的第一個核背酸所對應的鹼基記為+l,在此鹼基上游的序列記為負數,向5'-端依次為-1 、-2等;在此鹼基下游的序列記為正數,向3'-端依次為+2、+3等。零不用於標記鹼基位置。

基因編碼區編碼多肽鏈和特定的RNA分子[編輯]

基因編碼區中的 DNA 鹼基序列決定一個特定的成熟 RNA 分子的序列,換言之, DNA 的一級結構決定着其轉錄產物 RNA 分子的一級結構。有的基因僅編碼一些有特定功能的 RNA, 如 rRNA、tRNA及其他小分子 RNA等;而大多數基因則通過 mRNA 進一步編碼蛋白質多肽鏈。無論是編碼 RNA 還是編碼蛋白質,基本原則是基因的編碼序列決定了其編碼產物的序列和功能。因此,編碼序列中一個鹼基的改變或突變,都有可能使基因功能發生重要的變化。這些變化可能是原有功能的喪失,或是新功能的獲得。當然,也有的鹼基突變不會影響編碼產物的序列或功能。
需要指出的是,有些相同的 DNA 序列由於其起始位點的變化或 mRNA不同的剪接產物可以編碼不同的蛋白質多肽鏈。

調控序列參與真核基因表達調控[編輯]

位於基因轉錄區前後並與其緊鄰的 DNA序列通常是基因的調控區,又稱為旁側序列(flanking sequence)。真核基因的調控序列遠較原核生物複雜,迄今了解仍很有限。這些調控序列又被稱為順式作用元件(cis-acting element), 包括啟動子、上游調控元件、增強子、絕緣子、加尾信號和一些細胞信號反應元件等。

  • 啟動子提供轉錄起始信號 啟動子是DNA分子上能夠介導RNA聚合酶結合併形成轉錄起始複合體的序列。大部分真核基因的啟動子位於基因轉錄起點的上游,啟動子本身通常不被轉錄;但有一些啟動子(如編碼tRNA基因的啟動子)的DNA序列可以位於轉錄起始點的下游,這些DNA序列可以被轉錄。真核生物主要有3類啟動子 , 分別對應於細胞內存在的三種不同的RNA聚合酶和相關蛋白質。
    • Ⅰ類啟動子富含GC鹼基對:具有Ⅰ類啟動子的基因主要是編碼rRNA的基因。Ⅰ類啟動子包括核心啟動子 (core promoter) 和上游啟動子元件(upstream promoter element, UPE)兩部分,能增強轉錄的起始。兩部分序列都富含GC鹼基對。
    • Ⅱ類啟動子具有TATA盒特徵結構:具有Ⅱ類啟動子的基因主要是能轉錄出mRNA且編碼蛋白質的基因和一些snRNA基因。Ⅱ類啟動子通常是由TATA盒 (TATA box)、上游調控元件如增強子和起始元件 (initiator element, Inr)組成。TATA盒的核心序列是 TATA(A/T)A(A/T), 決定着RNA合成的起始位點。有的Ⅱ類啟動子在TATA盒的上游還可存在CAAT盒、GC盒等特徵序列,共同組成啟動子。
    • Ⅲ類啟動子包括 A盒 、B盒和 C盒:具有Ⅲ類啟動子的基因包括5S rRNA、tRNA、U6 snRNA等RNA分子的編碼基因。
  • 增強子增強鄰近基因的轉錄 增強子是可以增強真核啟動子工作效率的順式作用元件,是真核基因最重要的調控序列,決定着每一個基因在細胞內的表達水平。這一調控序列能夠在相對於啟動子的任何方向和任何位置(上游或者下游)上發揮這種增強作用,但大部分位於上游。增強子序列距離所調控基因距離近者幾十個鹼基對,遠的可達幾千個鹼基對。通常數個增強子序列形成一簇,有時增強子序列也可位於內含子之中。不同的增強子序列結合不同的調節蛋白。
  • 沉默子是負調節元件 沉默子 (silencer)是可抑制基因轉錄的特定DNA序列,當其結合一些反式作用因子時對基因的轉錄起阻遏作用,使基因沉默。
  • 絕緣子阻礙增強子的作用 絕緣子 (insulator)是基因組上對轉錄調控起重要作用的一種元件,可以阻礙增強子對啟動子的作用,或者保護基因不受附近染色質環境(如異染色質)的影響。特異的轉錄因子如酵母RAPI蛋白和脊椎動物細胞中 CTCF(CCCTC-b indingfactor )蛋白結合於絕緣子而發揮調控作用。絕緣子阻礙增強子對啟動子的作用可能通過影響染色質的三維結構如DNA發生彎曲或形成環狀結構。