您現在的位置:首頁 > 科技 > 正文

環球快資訊:基因測序20年后,終于搞清了垃圾DNA是干啥的

時間:2023-07-01 16:57:19    來源:科普中國網    

1990年,國際人類基因組計劃啟動,到2003年,絕大多數人類基因組已獲得測定。人們驚奇地發現,人類的基因并非一條完整的信息鏈,而是被許多不能編碼遺傳信息的序列切割得支離破碎。這些不能編碼遺傳信息的DNA在當時被稱為“垃圾”。大自然為什么要在人類基因里放置那么多的垃圾?二十年來,隨著科學家的努力,真相逐漸浮出水面:這些垃圾DNA自有作用,而其中非常重要的一類就叫做“內含子”。


(相關資料圖)

撰文 | 玉寶(中科院遺傳發育所博士)

內含子的發現

龍生龍,鳳生鳳,遺傳是我們生活中隨處可見的現象。科學家很早就猜測,一定是有什么物質能把上一代的性狀傳遞給下一代。十九世紀中葉,奧地利科學家孟德爾(Gregor Johann Mendel)根據他多年的植物雜交實驗結果假想出“遺傳因子”這樣一個獨立的遺傳單位,并認為生物的所有性狀都是通過遺傳因子來傳遞的。1903年,美國生物學家沃爾特·薩頓(Walter Sutton)和德國生物學家鮑維里(Theodor Heinrich Boveri)提出遺傳因子位于染色體上,染色體是遺傳物質的載體。1909年,丹麥遺傳學家約翰遜(Wilhelm Johannsen)提出了“Gene”(基因)的概念,以此來替代孟德爾假定的“遺傳因子”。從此,“基因”一詞一直在遺傳學中沿用至今。

約翰遜認為,“基因”背后應該有一個化學實體。人們相信只要弄清了基因的結構,基因如何編碼遺傳信息、遺傳信息如何傳代就很容易解釋了。在二十世紀五十年代以前,基因的結構并不清晰,直到1953年美國分子生物學家沃森(James Watson)和英國生物學家克里克(Francis Crick)發現DNA的雙螺旋結構,這個問題才得以解決。但科學家對基因的編碼方式提出了多種理論,例如“一個基因一個酶(蛋白)”就是流行于四十年代的理論。后來人們發現,這個理論遇到的例外越來越多:不少基因發揮功能的實體是RNA,或者數個基因編碼一個蛋白,或者一個基因編碼數個蛋白。因此,“基因”的定義變得越來越復雜。

1977年,美國科學家夏普(Philip Sharp)與英國科學家理查德·羅伯茨(Richard Roberts) 在研究腺病毒遺傳時,各自用電鏡技術獨立發現了內含子[1, 2],并提出了“斷裂基因理論”,兩人因此榮獲1993年的諾貝爾生理學或醫學獎。電鏡技術對于內含子的發現功不可沒,它的分辨率能夠看到納米尺度的DNA或RNA分子。不過,內含子的命名另有其人。在1978年的一篇短文中,美國科學家沃特·吉爾伯特(Walter Gilbert)提議用“intron(內含子)”指代mRNA前體中的非編碼序列。mRNA是基因由DNA序列“翻譯”成蛋白質序列的模板。

1980年,吉爾伯特與弗雷德里克·桑格(Frederick Sanger)、保羅·伯格(Paul Berg)因發明基因測序技術而共同獲得諾貝爾化學獎。

斷裂基因理論認為,真核生物的基因組中,基因的序列是不連續的,在基因的編碼區域之間含有大量的不編碼序列,從而打斷了對應的蛋白質的氨基酸序列。內含子,一般指的是真核生物基因中不編碼蛋白質,是在mRNA加工過程中被剪切掉的DNA序列。這個剪切反應由“剪接體(spliceosome)”完成;剪接體的結構十分復雜,由100多個“零件”組成。

圖1 轉錄過程中內含子被剪切的示意圖。在真核細胞基因轉錄過程中,“剪接體”行使功能將內含子去除,將外顯子(綠色)組合到一起,形成成熟的mRNA。圖源:李宏彬等

內含子的功能

真核細胞蛋白質編碼基因與原核細胞的最大區別,就在于前者中存在內含子而后者沒有。通常,內含子的長度遠比編碼蛋白的外顯子序列長。內含子的存在,使得真核細胞在傳代和基因表達時消耗了大量的物質和能量,這無疑會增加機體的生存負擔。那么,這么長的非編碼片段嵌在基因里,到底有什么用呢?

內含子發現之后的20年里,人們對它的起源和功能方面的研究較少。實際上,直到21世紀初,人類基因組草圖剛完成那幾年,還有一個流行的說法:“人類基因組中95%的序列都是垃圾DNA”。相信有讀者記得當時的這個說法。當然,那時候人們所說的垃圾序列中,就包括了內含子。在科研人員的不斷努力下,“垃圾DNA”的說法逐漸被推翻,內含子的重要功能也逐步清晰起來。

一系列研究發現,內含子有助于維持基因的穩定,還會參與基因的表達和調控。具體來說,基因中的內含子與外顯子通過可變剪接產生不同的外顯子組合,進而翻譯出多種蛋白質,提高了蛋白質組的復雜性;內含子中的增強子(序列)等調控元件可以調控基因的轉錄效率;內含子中的一些RNA元件還可以避免轉錄提前終止。

早期研究發現,內含子可以維持基因轉錄時DNA序列的穩定:防止基因在轉錄時形成“R環”(R-loop)。所謂R環,顧名思義就是“R”形的結構,它是指由轉錄出的RNA鏈與打開的雙鏈DNA的其中一條發生堿基互補配對,形成RNA-DNA雜合鏈的結構,同時,未配對的另一條DNA鏈處于游離狀態(見圖2)。而內含子的存在可以減少R環形成,保持基因組DNA的穩定性。不過,R環也并不都是“壞的”,后來人們發現細胞中的R環也是有生物功能的——它可以調節基因表達,如轉錄起始和延伸、表觀遺傳調控等。另外,R環的失調與DNA損傷、基因組不穩定、基因高頻重組也有關。

圖2. 基因轉錄時形成“R環”(R-loop)的兩種方式。圖源:張譯勻等

內含子還有許多其他的功能。幾年前,加拿大舍布魯克大學的Elela團隊和美國麻省理工學院的Bartel團隊同時發表了兩篇論文**[4, 5]**,表明內含子可以協助機體應對營養缺乏的壓力,使其“扛餓”。

Elela團隊逐個敲除了釀酒酵母的200多個內含子,看看是否會影響酵母的生存能力。通過測序以及相應的表型分析,研究人員發現內含子具有調控酵母適應營養匱乏(饑餓)的功能。Bartel團隊則發現酵母中有34個內含子一直存在于細胞中,以剪切后的全長或線性形式存在,它們受到經典的TOR代謝通路的調控,在營養匱乏時能夠減緩酵母的生長速度,提高了酵母的適應性和生存率。這些內含子發揮應對逆境的功能,與其所在基因的功能無關。內含子關乎機體的生死存亡,那么在它生物演化過程中得以保留也就可以理解了。

內含子可以分為四類:Ⅰ型內含子、Ⅱ型內含子、剪接體內含子、tRNA內含子。其中,一般意義上的內含子就是剪接體內含子,顧名思義就是自帶剪接體的內含子,其”剪接體”的蛋白立體結構已被解析出來。生成mRNA的剪接反應非常精準,錯誤率極低——要知道,若移碼錯位一個堿基,就會導致后續轉錄過程發生異常,無法生成蛋白質或生成錯誤的蛋白質。

Ⅰ型內含子存在于細菌、噬菌體、原生生物、真菌中,能夠自我剪接。Ⅱ型內含子存在于細菌和細胞器基因組中,同樣能夠自我剪接,但是機制與1型內含子不同,與剪接體內含子的剪接機制類似。tRNA內含子存在于真核細胞和古菌中,剪接過程需要內切酶和ATP。

內含子的產生機制

真核細胞里到底是怎么出現內含子的?

關于內含子的產生機制,目前比較流行的解釋是“introner理論”[6],它可以解釋剪接體內含子的起源。introners可以看做是基因組中的“寄生蟲”,在基因組中通過“復制”“粘貼”的方式“制造”了大量內含子。2009年,科學家在微單胞藻中發現了introner,隨后在鞭毛藻、某些真菌、尾索動物中也發現了它的蹤跡。

科學家的多項研究表明,這個“復制”“粘貼”的過程可以在整個基因組中大規模地重復:在整個生物演化過程中,introner在不同的真核生物中不停制造著內含子。比如,在過去的十萬年中,真菌基因組中的多數內含子都是Introner引入的**[7]**。

圖3. Introner如何“制造”內含子? Introner把內含子序列插入基因組中,從而“割裂”原有的DNA序列,生成新的外顯子。圖源:Merrill Sherman

研究發現,在一些物種中,introner產生的序列與DNA轉座子有很強的相似性,例如Polarella glacialis和Micromonas這兩種藻類就是這樣。DNA轉座子代表了一個更大的遺傳元件家族,又稱轉座元件或“跳躍基因”;轉座子可以將自身序列大量拷貝并插入基因組中。introner和轉座子的這種的相似性,提示了一部分內含子可能來源于轉座子。Introner機制產生的內含子往往在短期內大量出現在基因組中,帶有很強的隨機性,這可以解釋為什么內含子在真核生物基因組中的分布并不均勻。

不過,目前introner只發現于部分物種。例如,內含子的涌現似乎在水生生物中更常見:內含子出現在水生生物基因組中的可能性是陸生生物基因組的6倍多。此外,近3/4的含有內含子的水生物種,其基因組擁有多個序列相似的內含子。這種序列相似的現象其實就是基因水平轉移,即基因序列從一個物種轉移到另一個物種。這種形式的基因轉移,往往發生在水生環境或物種共生的情況下,例如宿主和寄生蟲之間。

水生環境有助于水平基因轉移,是因為在水性介質中各種遺傳物質可以自由流動。單細胞生物在水中很容易吸收或融合外源DNA;更復雜的多細胞生物在水中產卵或受精,也有機會接觸到外源DNA或RNA。有研究發現,在將近300多個硬骨魚類基因組中曾發生了近1000個基因水平轉移或內含子插入事件**[8]**。相比之下,陸地生物之間發生基因水平轉移的頻率要低得多。

內含子對生物演化的意義

同樣是真核生物,哺乳動物的內含子比酵母的更多更長。例如,人類內含子序列長度約占基因組的25%,每個基因平均約有9個內含子,這樣有助于基因實現復雜多樣的功能。人類mRNA前體中內含子的長度差異非常大,可以從50個堿基到百萬個堿基不等。

內含子在物種間及物種內部的分布也不均衡。同一物種不同個體的同一基因中,有的有內含子,有的沒有;不同物種同一基因的內含子的長度、數目和所處位置等都不相同。如Sccoxl.2b和Ancoxl.3這兩個同源基因的內含子,其序列有70%相同,但內含子旁邊的外顯子排列順序差異很大,這可能是內含子在不同物種中發生了轉移的結果。

內含子的存在需要有相應的機制保證。真核生物因為細胞中有核膜,為基因轉錄和翻譯過程在空間上的分離提供了基礎,同時細胞中的大量線粒體可以提供能量,所以內含子的存在有其物質基礎。而原核生物,沒有核膜結構,轉錄和翻譯是同步的,所以原核生物無需內含子來保持DNA序列的穩定性。

科學家認為,內含子有助于推動基因家族或物種的演化。基因組通過組合外顯子和內含子,通過可變剪接的機制制造新的變異,生成新的調控模式或功能模塊(酶、蛋白質、通路等)。例如,可以產生毒素的物種通常需要在基因層面快速組合,進而生成新的毒液(復雜的肽類混合物),以適應不同的獵物或應對天敵。動物的免疫系統則需要快速重排MHC基因,不斷產生新的抗體或抗原呈遞細胞,以應對生活環境中多變的抗原。這種快速進化機制在自然界中很普遍,內含子往往會參與到這些機制當中。

參考文獻

[1] Berget SM et al. Spliced segments at the 5" terminus of adenovirus 2 late mRNA. PNAS. 1977, 74 (8): 3171–3175.

[2] Chow LT, et al. "An amazing sequence arrangement at the 5" ends of adenovirus 2 messenger RNA". Cell. 1977, 12 (1): 1–8.

[3] Gilbert W. Why genes in pieces. Nature. 1978, 271 (5645): 501.

[4] Elela AS et al. Introns are mediators of cell response to starvation. Nature. 2019, 565(7741): 612-617.

[5] Bartel DP. Excised linear introns regulate growth in yeast. Nature 2019, 565(7741): 606-611

[6] A.Z. Worden, et al. Green evolution and dynamic adaptations revealed by genomes of the marine picoeukaryotes Micromonas. Science, 2009, 324 (5924), 268-272

[7] Ate van der Burgt et al. Birth of New Spliceosomal Introns in Fungi by Multiplication of Introner-like Elements. Current Biology, 2012: 22(13), 1260-1265

[8] Zhang HH et al.Horizontal transfer and evolution of transposable elements in vertebrates. Nat Commun. 2020, 11(1):1362.

本文受科普中國·星空計劃項目扶持

出品:中國科協科普部

特 別 提 示

1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。

標簽:

相關新聞

凡本網注明“XXX(非現代青年網)提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和其真實性負責。

特別關注

熱文推薦

焦點資訊