生物基因结构
基因結構
最近需要對啟動子區域進行預測,所以首先對啟動子的結構特征進行了解,而說到啟動子,那就一定要了解基因結構,所以,在網上查找了部分資料進行整理與學習。
首先,根據RNA合成的不同時期,從DNA到成熟mRNA,分為三個階段了解基因結構的變化。
RNA合成
特點
RNA聚合酶-RNA polymerase:
細菌 Bacteria:全酶 (Holoenzyme) 由一種核心酶(α2ββ’σω)和多種因子組成。
真核生物 Eukaryotes:三種 RNA 聚合酶 ,根據對α-鵝膏覃堿分為三類。
| RNA 聚合酶Ⅰ | 核仁 | rRNA(28S, 18S, 5.8S) | 50-70% | 不敏感 |
| RNA 聚合酶Ⅱ | 核質 | hnRNA*, snRNA, mRNA | 20-40% | 敏感 |
| RNA 聚合酶Ⅲ | 核質 | tRNA, 5SRNA, 某些涉及 RNA 加工的 snRNA | 約 10% | 存在物種特異性 |
PS:細菌中研究得最為清楚的是大腸桿菌的RNA聚合酶,該酶是由五種亞基組成的六聚體(α2ββ’ωσ),該六聚體稱之為核心酶(coreenzyme),σ因子與核心酶結合后稱為全酶 (Holoenzyme)。
對RNA的分類
其中只有真核生物需要轉化成前mRNA,而細菌與原核生物由于缺少內含子不需要這一步。
-
hnRNA: heterogeneous nuclear RNA, 核內不均一 RNA, RNA 的前體
-
snRNA:核小RNA是真核生物轉錄后加工過程中RNA剪接體(spliceosome)的主要成分,參與mRNA前體的加工過程。
-
snoRNA:核仁小RNA(small nucleolar RNA)由內含子編碼,分布于真核生物細胞核仁的小分子非編碼RNA,具有保守的結構元件。已證明有多種功能,主要參與rRNA的加工;反義snoRNA指導rRNA核糖甲基化。
-
scRNA:,胞質小RNA(small cytoplasmic RNA,scRNA),細胞質中的小分子RNA。通常指轉移核糖核酸(tRNA)和小的核糖體RNA(rRNA),如5S rRNA、5.8S rRNA等。
-
tmRNA:轉運-信使RNA(Transfer-messenger RNA),是一種細菌的RNA分子,是tRNA和信使RNA類似物。 tmRNA的用途十分廣泛,它可用于回收停滯的核糖體,并有利于異常的信使RNA的降解。
DNA
轉錄是從DNA聚合酶結合到模版鏈上開始的,用一個簡單模型來概括就是將DNA分為兩個部分,編碼區與非編碼區。下圖是包含了一個最簡單的轉錄單元(transcription unit),轉錄單元起始于啟動子并終止于終止子。
PS:一個轉錄單元只包含一個基因,而轉錄本是由多個轉錄單元加上基因間隔區組成的。
由上圖可以看出,基因結構分為編碼區與非編碼區,真核生物的編碼區存在內含子與外顯子,首先會生成前mRNA,然后將mRNA中的內含子切除,最后合并外顯子形成mRNA。而原核生物沒有內含子,可以直接生成mRNA。
編碼區
外顯子 Exon:外顯子是在 preRNA 經過剪切或修飾后,被保留的DNA部分,并最終出現在成熟RNA的基因序列中。
內含子 Intron:在真核生物中,內含子作為阻斷基因的線性表達的一段DNA序列,是在 preRNA 經過剪切或修飾后,被切除的DNA序列
非編碼區
非編碼區雖然不會被轉錄,但是對與基因的表達起到了重要的作用,啟動子,終止子,增強子等都處于非編碼區中,且非編碼區在總RNA中占比超過90%。非編碼區RNA可以轉錄為功能性RNA,如tRNA,rRNA等;也可以對轉錄起到控制與調控作用,甚至參與mRNA的加工。
啟動子:是一段位于結構基因 5’端上游區的保守的 DNA 序列,能活化 RNA 聚合酶,使之與模板 DNA 準確地相結合并具有轉錄起始的特異性。啟動子長約100-1000bp。在轉錄過程中,RNA聚合酶與轉錄因子可以識別并特異性結合到啟動子特有的DNA序列(一般為保守序列),從而啟動轉錄。啟動子本身并不轉錄而且也不控制基因活動,而是通過轉錄因子結合來調控轉錄過程。在細胞核中,似乎啟動子優先分布在染色體區域的邊緣,可能是在不同染色體上共同表達基因。 此外,在人類中,啟動子顯示出每個染色體特有的某些結構特征。
原核生物啟動子
原核生物的啟動子最重要的是-10區與-35區,如果在原核生物中這兩個區域之間的距離超過或小于16-19bp,都會降低轉錄活性,可能與RNA Pol本身構象有關。
- -10區(-10 box,Pribnow 盒)
是由 5 個核苷酸組成的保守序列,是聚合酶結合位點,其中央大約位于起點上游 10bp 處,所以又稱為 -10 區,是真核生物與古細菌的TATA 盒的原核同源物,具有較短共有序列TATAATAAT。
-10區特點:
研究發現,只有 -10 區 是不能結合 RNA 聚合酶的。從噬菌體的左、右啟動子 PL 及 PR 和 SV40 啟動子的 - 35 bp 附近找到了另一段共同序列:TTGACA
- -35區(35 box ( Sextama 盒 ))
其保守序列為 TTGACa, 與 -10 序列相隔 16-19bp。
為 RNA pol 的識別位點。
是 RNA 聚合酶與啟動子的結合位點,能與 σ 因子相互識別而具有很高的親和力。但不能被 RNA Pol 的核心酶識別,核心酶只能起到和模板結合和催化的功能。
- 原核生物啟動子的共同特點
- 位置和距離都比較恒定,都在其控制基因的 5’端,常和操縱子相鄰;
- -35 序列,-10 序列等特征序列都十分保守;
- 都含有識別 (R ) 、結合 (B) 和起始 (I) 三個位點;
- 直接和多聚酶相結合,與 σ 結合決定轉錄的特異性。
σ因子自身并不能與 DNA 結合,但與核心酶相互作用后暴露出σ因子的 DNA 結合域:β’ 亞基的氨基酸片段促進 σ因子與啟動子 -10 框的非模板鏈的結合。
σ因子可以選擇哪些基因將被轉錄:
- σ70 (RpoD)-“管家”σ因子/主要σ因子,轉錄生長細胞中的大多數基因。制造保持細胞存活所必需的蛋白質。
- σ54 (RpoN) -氮源缺陷應激σ因子
- σ38 (RpoS) -饑餓應激σ因子
- σ32 (RpoH) 熱休克應激σ因子
- σ28 (RpoF) -鞭毛σ因子
- σ24 (RpoE) -極端/極端應激σ因子
- σ19 (FecI) -檸檬酸鐵σ因子,調節用于鐵運輸的 fec 基因的轉錄
真核生物啟動子
真核生物 RNA 聚合酶Ⅱ所識別的啟動子區
- TATA box(Hogness 區)
-25 ~ -30 bp 區,保守序列為 TATAAA。確定轉錄起始位點,使轉錄精確地起始:如果除去 TATA 區或進行堿基突變,轉錄產物下降的相對值不如 CAAT 區或 GC 區突變后明顯,但發現所獲得的 RNA 產物起始點不固定。
- 啟始子 (initiator, Inr):轉錄起始位點附近。
- 上游啟動子元件 ( upstream promoter element, UPE, 又稱 上游激活序列 (upstream activating sequence, UAS) : TATA 區上游的保守序列。
- CAAT box
CCAAT box(有時也縮寫為CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的調節區,位于轉錄起始點上游約-80bp處,可能也是RNA聚合酶的一個結合處,控制著轉錄起始的頻率。與之對應的就是原核的-35區。
CAAT框是最早被人們描述的常見啟動子元件之一,常位于接近-80的位置,但是它可以在離起始點較遠的距離仍能起作用,且在兩種取向均可發揮作用。CAAT框的突變敏感性提示了它在決定轉錄效率上有很強的作用,但是突變對啟動子的特異性沒有影響。
- GC box :-80 ~ -110 含有 GCCACACCC 或 GGGCGGG 序列。
CAAT 區和 GC 區主要控制轉錄起始頻率,基本不參與起始位點的確定。
- 真核生物啟動子特點
增強子 Enhancer
增強子是位于轉錄起始位點或下游基因1Mbp的位置,長度50-1500bp的序列,其可以被轉錄激活因子結合從而增加特定基因轉錄發生的可能性,廣泛的存在于原核與真核生物基因結構中。
增強子能大大增強啟動子的活性。增強子有別于啟動子處有兩點:
終止子 Terminator
終止子與終止密碼子的概念區分:二者在名稱上相似,但是含義是截然不同的。終止子是處于基因的非編碼區的一段DNA序列,用于終止轉錄。而終止密碼子是在翻譯過程中終止肽鏈合成的mRNA中的三聯體堿基序列,一般情況下為UAA,UAG和UGA,不編碼為氨基酸。
終止子處于基因或操縱子的末端,給RNA聚合酶提供轉錄終止信號的DNA序列。
- ATAAA
ATAAA 是 preRNA 在通過修剪后形成成熟mRNA 時在3’UTR產生ployA 是的加尾信號。但是這段序列并不是絕對保守,也可能為其他A富集的序列,比如AATAAA等。
- 回文序列 palindrome sequence
回文序列是雙鏈DNA中的一段倒置重復序列,這段序列有個特點,它的堿基序列與其互補鏈之間正讀和反讀都相同。當該序列的雙鏈被打開后,如果這段序列較短,有可能是限制性內切酶的識別序列,如果比較長,有可能形成發卡結構,這種結構的形成有助于DNA與特異性DNA與蛋白質的結合。
preRNA
- 轉錄起始位點 Transcription start sites (TSS)
轉錄起始位點是指與新生RNA鏈第一個核苷酸相對應的DNA鏈上的堿基,通常為一個嘌呤(A 或G),即5’UTR的上游第一個堿基。 通常在起始核苷酸的兩側為 C 和 T (i.e. CGT or CAT)。
- 轉錄終止位點 Transcription termination sites (TTS)
轉錄起始位點是指新生RNA鏈最后一個核苷酸相對應的DNA鏈上的堿基。當RNA鏈延伸到轉錄終止位點時,RNA聚合酶不再形成新的磷酸二酯鍵,RNA-DNA雜合物分離,轉錄泡瓦解,DNA恢復成雙鏈狀態,而RNA聚合酶和RNA鏈都被從模板上釋放出來。
- 開放閱讀框 Open reading frame(ORF)
ORF 是連續的一段密碼子,其含有起始密碼子(通常是AUG)和終止密碼子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越內含子/外顯子區域,其可以在 ORF 轉錄后拼接在一起以產生蛋白質翻譯的最終mRNA。 由于讀寫位置不同(對應不同的起始位點),ORF 可能翻譯為不同的多肽鏈。
mRNA
從上圖可以看出,外顯子不僅僅只有編碼區域,還有非編碼的區域5'UTR與3'UTR。
UTR (Untranslated Region ),如果這段序列位于5’端,就稱作5’UTR(5‘-untranslated region),也叫前導序列(leader)。相反若位于3’端,我們就叫它3’UTR(3‘-untranslated region),也叫尾隨序列(trailer)。
5’UTR 位于從mRNA起點的甲基化鳥嘌呤核苷酸帽延伸至起始密碼子AUG,3’UTR從編碼區末端的終止密碼子延伸至多聚A尾巴(Poly-A)的前端 。
原核生物和真核生物都可以看到UTR,但它們的長度和組成都有所不同。原核生物中,5′非翻譯區通常為3至10個核苷酸的長度。但在真核生物中,5′非翻譯區有成百上千個核苷酸的長度。與原核生物相比,真核生物的基因組的復雜性更高,3′非翻譯區的長度也不同。雖然5′非翻譯區和3′非翻譯區在長度上有差異,但5′非翻譯區的長度在演化過程中比3′非翻譯區顯得更保守。
5‘Cap
5‘Cap也被稱為7-甲基鳥苷酸帽,縮寫為m7G。這種結構在RNA進出細胞核起到識別作用;可以抗5’-核酸外切酶的截切;促進5’端內含子的切除;在翻譯過程中有助于核糖體對mRNA的識別和結合。
3’ PolyA tail
Poly A tail 由多個腺苷一磷酸組成 ,也就是說它是一段僅含有腺嘌呤堿基的RNA 。這種結構可以避免細胞質中的酶促降解,并有助于轉錄終止,mRNA從細胞核中的輸出和翻譯。
CDS (coding dna sequence)
CDS 是基因中DNA或RNA為蛋白質編碼區域,該區域通常開始于5‘末端的起始密碼子并結束于3’端的終止密碼子。生物體基因組編碼區的總和稱為外顯子組。
CDS與ORF的區別與聯系:
- CDS是Coding sequence的縮寫,是指編碼一段蛋白產物的序列,是與蛋白質密碼子一一對應的序列。
- ORF是open reading frame的縮寫,翻譯成開放閱讀框,是指從一個起始密碼子開始到一個終止密碼子結束的一段序列,但并不是所有讀碼框都能表達出蛋白產物(在我看來就是可能會包含內含子,讀碼框本省無法翻譯為蛋白質,但是經過剪切后就可以)
- CDS必定是一個ORF,但也可能包括多個ORF,相反,每個ORF不一定都是CDS。(真核與原核)
參考資料
基因結構:https://zhuanlan.zhihu.com/p/49601643
轉錄:https://blog.csdn.net/zea408497299/article/details/124464842?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166081277516781432993626%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=166081277516781432993626&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v1~rank_v33_ecpm-3-124464842-null-null.142
總結