王瓊萍 上海交通大學(xué)
基因表達(dá)芯片可以將克隆到的成千上萬(wàn)個(gè)基因特異的探針片段固定在一塊 DNA 芯片上,最終將這些基因特異性表達(dá)的、刺激特異性、發(fā)育階段特異性、分化階段特異性、組織特異性、病變特異性、個(gè)體特異性進(jìn)行綜合的分析和判斷,對(duì)來(lái)源于不同的個(gè)體(正常人與患者)、組織、細(xì)胞周期、發(fā)育階段、分化階段、病變、刺激(包括不同誘導(dǎo)、不同治療手段)下的細(xì)胞內(nèi) mRNA 或反轉(zhuǎn)錄后產(chǎn)生的 cDNA 進(jìn)行檢測(cè),從而可以分析出基因與基因間表達(dá)的差異,或者各基因間的關(guān)系,還可以快速地建立起基因與各性狀之間的關(guān)聯(lián)?;蛐酒瑪?shù)據(jù)分析就是對(duì)從基因芯片高密度雜交點(diǎn)陣圖中提取的雜交點(diǎn)熒光強(qiáng)度信號(hào)進(jìn)行的定量分析,主要是通過(guò)特定的軟件將有效數(shù)據(jù)進(jìn)行篩選,最終獲得雜交點(diǎn)的生物學(xué)信息。每次的芯片實(shí)驗(yàn)中,畜牧研究人員都能得到海量的數(shù)據(jù),而怎么從這些海量的數(shù)據(jù)中提取出我們需要的信息,進(jìn)而將無(wú)機(jī)的數(shù)據(jù)跟有機(jī)的生命活動(dòng)聯(lián)系起來(lái),數(shù)據(jù)的分析方法顯得尤為重要而富有意義。
在進(jìn)行芯片實(shí)驗(yàn)以及圖像掃描時(shí),由于各泳道之間背景的差異,在處理芯片數(shù)據(jù)前不能直接用來(lái)做統(tǒng)計(jì)分析和判斷。這些數(shù)據(jù)必須經(jīng)過(guò)不完整數(shù)據(jù)清除,重復(fù)數(shù)據(jù)的合并、缺失數(shù)據(jù)的估計(jì)、對(duì)數(shù)轉(zhuǎn)化等處理。背景校正(background correction)的目的是去除例如標(biāo)記的探針結(jié)合到非特殊標(biāo)記的 DNA 分子上而產(chǎn)生對(duì)實(shí)際基因表達(dá)量的影響。而標(biāo)準(zhǔn)化(normalization)的目的是為了彌補(bǔ)在各個(gè)不同芯片上產(chǎn)生的系統(tǒng)誤差,以得到更加明確的在不同樣本間的基因表達(dá)量的差異,使所有的數(shù)據(jù)轉(zhuǎn)換到同一個(gè)范圍內(nèi)。不同樣本的不同的處理方法,尤其是對(duì)樣本的標(biāo)記以及雜交操作的不同,對(duì)芯片的數(shù)據(jù)讀取的時(shí)候就會(huì)有偏差。如 Affymetrix 微陣列數(shù)據(jù)的預(yù)處理總結(jié)為以下幾步:(1)通過(guò)對(duì)臨近區(qū)域背景的加權(quán)平均對(duì)每個(gè)格子的背景強(qiáng)度進(jìn)行背景校正;(2)計(jì)算理想的非配對(duì)值 IM,然后從 PM強(qiáng)度中減去 IM;(3)校正后的 PM 值進(jìn)行對(duì)數(shù)轉(zhuǎn)換;(4)經(jīng)對(duì)數(shù)轉(zhuǎn)換后的值進(jìn)行穩(wěn)健性均數(shù)估計(jì),然后進(jìn)行反對(duì)數(shù)轉(zhuǎn)換;(5)對(duì)信號(hào)值通過(guò)截尾均數(shù)進(jìn)行標(biāo)準(zhǔn)化。
對(duì)于預(yù)處理之后的數(shù)據(jù),根據(jù)其復(fù)雜程度,目前一般有以下幾種層次的分析方法:(1)分析單個(gè)基因不同組織或樣本的表達(dá)差異;(2)尋找具有相似甚至相同功能,或者基因簇;(3)尋找多個(gè)基因的調(diào)控網(wǎng)絡(luò)。對(duì)于僅分析單個(gè)基因在不同組織或樣本間的表達(dá)差異水平,可以采用 t 檢驗(yàn)、方差分析與非參數(shù)分析或采用建模的方法。而對(duì)于比較復(fù)雜的分析,尋找一個(gè)或多個(gè)基因簇就要采用比較復(fù)雜的方法,如有直觀視圖分析、統(tǒng)計(jì)學(xué)分析和生物學(xué)分析。統(tǒng)計(jì)學(xué)分析可以幫助實(shí)現(xiàn)發(fā)現(xiàn)新的基因、DNA 序列、突變位點(diǎn)等。目前采用最廣泛的就是聚類(lèi)分析法。生命現(xiàn)象本身就是一個(gè)復(fù)雜現(xiàn)象,很多性狀的發(fā)生也不是僅僅由一個(gè)或幾個(gè)基因的作用結(jié)果,所以,在通路或者網(wǎng)絡(luò)的水平上研究基因的表達(dá)水平就顯得更加重要而富有意義。這就是第三種分析方法所承擔(dān)的責(zé)任。如通過(guò)基因表達(dá)譜的分析,可以從全局或者是特定局部的水平上(如通路水平),研究各個(gè)基因與基因間的互作,或者對(duì)調(diào)控區(qū)數(shù)據(jù)的挖掘,了解轉(zhuǎn)錄因子結(jié)合位點(diǎn)等。目前,模式生物如酵母、結(jié)核分枝桿菌的全序列是已知的,科研工作者已經(jīng)能制備出加載有他們?nèi)虻纳镄酒?,通過(guò)比較不同條件下表達(dá)譜的變化,再使用貝葉斯網(wǎng)絡(luò)法等進(jìn)行系統(tǒng)分析,便可以得知他們的基因功能以及調(diào)控網(wǎng)絡(luò)。
