王瓊萍 上海交通大學(xué)
比較基因組學(xué)指的是對(duì)不同物種的同源基因在基因組水平上進(jìn)行比較分析,以揭示其功能與進(jìn)化規(guī)律的學(xué)科。可以建立在基因組圖譜或者序列分析的基礎(chǔ)上,對(duì)一些基因和基因結(jié)構(gòu)進(jìn)行比較,了解基因的功能、表達(dá)調(diào)控機(jī)制和物種進(jìn)化過(guò)程。
世界范圍內(nèi)已經(jīng)進(jìn)行多物種的基因組計(jì)劃,隨著測(cè)序技術(shù)及芯片技術(shù)的高速發(fā)展,各物種的基因組圖譜逐漸完善。人類(lèi)基因組計(jì)劃是人類(lèi)自然科學(xué)史上的偉大創(chuàng)舉,它的規(guī)??梢耘c“曼哈頓原子彈計(jì)劃”、“阿波羅”登月計(jì)劃媲美。目前與人類(lèi)基因組計(jì)劃同步進(jìn)行的模式生物有大腸埃希氏桿菌、酵母、線蟲(chóng)、果蠅和小鼠等。利用模式生物的研究成果,尤其是從整體上而不是僅從個(gè)別基因入手研究生物體基因的功能,比較基因組學(xué)提供了這樣一個(gè)平臺(tái)。模式生物基因組研究中發(fā)現(xiàn)一些規(guī)律:模式生物基因組一般比較小,但編碼基因的比例較高;同線性(synteny)連鎖的同源基因在不同的基因組中有相同的連鎖關(guān)系等;DNA 冗余,即重復(fù);絕大多數(shù)的核心生物功能由相當(dāng)數(shù)量的同源基因編碼的蛋白承擔(dān);其 G+C%比較高;內(nèi)含子和外顯子的結(jié)構(gòu)組織比較保守,剪切位點(diǎn)在多種生物中一致。模式生物特別是哺乳動(dòng)物是人類(lèi)基因組學(xué)組成部分,是經(jīng)典遺傳學(xué)和生物學(xué)研究的主要對(duì)象和基礎(chǔ),已在個(gè)體水平和細(xì)胞水平對(duì)生物的遺傳規(guī)律進(jìn)行了大量的研究,其生物特性和遺傳特性已基本清楚。在未來(lái)的研究中,模式生物將會(huì)成為高等生物的生命活動(dòng)的實(shí)驗(yàn)?zāi)P汀?/font>
目前高通量測(cè)序方法更新日新月異,這也為各物種序列的積累提供了堅(jiān)實(shí)的后盾。通過(guò)不同親緣關(guān)系物種的基因組序列進(jìn)行比較,能夠鑒定出編碼序列、非編碼調(diào)控序列及給定物種獨(dú)有的序列。而在基因組范圍內(nèi)的序列比較,可以得到不同物種在核苷酸的組成,同線性關(guān)系和基因順序方面的異同,從而可以了解生物系統(tǒng)進(jìn)化等方面的信息。
同一物種的不同基因間或者不同物種的基因間都具有同源性。現(xiàn)代分子生物學(xué)的同源性的定義為基因與基因之間相似關(guān)系,它表明的是兩個(gè)相比較的序列之間的相似程度。同源基因 (homologous gene)指的是來(lái)自同一物種或不同但相關(guān)物種的、在進(jìn)化過(guò)程中源于共同祖先的基因。它們彼此在核苷酸序列上是等同或相似的。同源基因可分為直向同源基因、橫向同源基因和異源同源基因。
(1)直向同源基因:
直向同源基因(orthologous gene)又被稱(chēng)為“垂直同源基因”、“正同源基因”或“定向進(jìn)化同源基因”、“直系同源基因”,是指從同一祖先垂直進(jìn)化而來(lái)的基因?;蛘哒f(shuō),一個(gè)祖先物種分化產(chǎn)生兩種新物種,那么這兩種新物種共同具有的由這個(gè)祖先物種繼承下來(lái)的基因就稱(chēng)為直向同源基因。直向同源基因通常是編碼生命必需的酶、輔酶或關(guān)鍵性調(diào)控蛋白的基因,具有功能保守、進(jìn)化緩慢、變化速度覆蓋整個(gè)進(jìn)化歷史、序列變化速度與進(jìn)化距離相當(dāng)?shù)忍卣鳌K砹诉M(jìn)化上分離的物種間保守的單拷貝基因,通常在物種進(jìn)化過(guò)程中保持一種相當(dāng)或相似的功能。大多數(shù)直向同源基因功能相同或相近,調(diào)控途徑也相似,因此在基因組序列的注釋中,是最可靠的選擇。我們通常依靠比較基因組學(xué)的序列分析來(lái)克隆基因、疾病分子機(jī)制、揭示基因功能和基因組內(nèi)在結(jié)構(gòu)的基礎(chǔ)及闡明物種進(jìn)化關(guān)系,而不同物種的不同基因間的直向同源關(guān)系,為這樣的研究提供了基礎(chǔ)可以為基因功能注釋和進(jìn)化研究提供便利。人類(lèi)基因組及模式生物的基因組序列的大量積累,通過(guò)分析直向同源基因,我們就可以從已知的序列信息向未知的序列方向轉(zhuǎn)移,還可以作為編碼基因標(biāo)記,作為標(biāo)記輔助選擇和等位基因發(fā)現(xiàn)中發(fā)揮重要作用。另外,直向同源基因還介于它的在物種間呈現(xiàn)的高度保守性,還可以進(jìn)行系統(tǒng)發(fā)生分析和表達(dá)模式的鑒別。由于直系同源所承擔(dān)的強(qiáng)大功能,研究中所涉及的一般是直向同源基因。
(2)橫向同源基因和異源同源基因:
橫向同源基因(paralogous gene)又譯為“旁系同源基因”、“并系同源基因”或“平行進(jìn)化同源基因”,是指由于基因重復(fù)而產(chǎn)生的同源基因?;蛑貜?fù)后,進(jìn)化選擇壓力變小、其中一條基因丟失或發(fā)生沉默都是促使橫向同源基因分化產(chǎn)生新特性或新功能的原因。然而,雖然某些橫向同源基因轉(zhuǎn)錄區(qū)序列相似度不高,但它們的操縱子卻仍然具有較高的保守度。值得注意的是,橫向同源基因并不局限于同一物種內(nèi),不同物種中由于始祖基因的復(fù)制而分化的基因也稱(chēng)橫向同源基因,如鼠 α-珠蛋白和雞 β-珠蛋白基因。與直系同源不同的是,旁系同源在功能上不一定相似。異源同源基因(xenologous gene)是由于基因在不同物種間的橫向轉(zhuǎn)移(horizontal transfer)而產(chǎn)生的。異源同源基因在原核生物中研究比較多。
人及模式生物基因組工作的大量開(kāi)展,為其他生物如豬的基因組研究提供了豐富的資源。利用模式生物,我們可以做豬的相關(guān)研究,比如利用豬與模式生物序列上的同源性,克隆出豬性狀或疾病的相關(guān)基因;利用直向同源基因發(fā)現(xiàn)豬未知基因的相關(guān)功能,如 Davoli等利用比較基因組學(xué)的方法分離了豬的表達(dá)序列標(biāo)簽建立關(guān)于豬骨骼肌生長(zhǎng)的轉(zhuǎn)錄圖譜。利用比較基因組學(xué),我們可以利用模式生物的研究繼而利用候選基因集法定義我們所需要的基因集以及進(jìn)行 QTL 映射分析。
