国产精品无码Av天天爽_女人高潮内射99精品 国产精品性感美女视频,亚洲欧美日韩精品,亚洲

找工作
當(dāng)前位置:首頁 >  行業(yè)新聞 > 正文

表達(dá)譜數(shù)據(jù)的 GO分析和聚類分析

發(fā)布時(shí)間:2012-06-13 06:00    作者:yizhiinfo    來源:畜牧人才網(wǎng)    查看:
王瓊萍 上海交通大學(xué)

    GO(gene ontology)是基因本體聯(lián)合會(huì)(Gene Ontology Consortium)所建立的數(shù)據(jù)庫。GO 是多種生物本體語言中的一種,旨在建立一個(gè)能闡釋各種物種的基因以及基因產(chǎn)物。這個(gè)數(shù)據(jù)庫最開始起源于三個(gè)模式生物的數(shù)據(jù)庫:果蠅基因組數(shù)據(jù)庫(Drosophila)、酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database,SGD)、小鼠基因組數(shù)據(jù)庫(Mouse GenomeDatabase,MGD)。在這之后,在基因本體聯(lián)合會(huì)成員的努力下,將 GO 數(shù)據(jù)庫擴(kuò)展到了植物、動(dòng)物、微生物等世界范圍內(nèi)各個(gè)主要的數(shù)據(jù)庫。GO 數(shù)據(jù)庫建立了具有三層結(jié)構(gòu)的定義方式來描述基因及其產(chǎn)物的生物學(xué)過程、細(xì)胞組分及分子功能,對(duì)不同信息源的信息進(jìn)行整合,以 DAG(有向無環(huán)圖)結(jié)構(gòu)組織起來作為多個(gè)分支,節(jié)點(diǎn)的高低也代表了每個(gè)節(jié)點(diǎn)的意義的廣泛程度。每個(gè)父項(xiàng) (parent terms)下包含若干子項(xiàng)(children terms),分支越遠(yuǎn),匹配的 GO 條目就越具體。在這個(gè)層級(jí)結(jié)構(gòu)中,一個(gè)生物學(xué)注釋可以由一個(gè)基因集表示。這個(gè)數(shù)據(jù)庫的建立為基因功能數(shù)據(jù)挖掘提供了新的思路。一套基因本體,其實(shí)也就是一套基因的樹狀結(jié)構(gòu)。GO 數(shù)據(jù)庫及其序列分析程序的問世,使得差異基因的功能分析變得更加高效 、 準(zhǔn) 確 。 目前,已經(jīng)有很多可以供畜牧研究者免費(fèi)使用的GO資源 , 如 AmiGo,它可以分析一個(gè)基因的 GO 術(shù)語,也可以分析多個(gè)基因。

    另外,還有 Onto express、DAVID、Gostat 等。差異基因的 GO 分析關(guān)鍵在于利用統(tǒng)計(jì)學(xué)方法進(jìn)行基因富集,常用的方法是 Fisher 的精確概率法或卡方檢驗(yàn)。Fisher 的精確概率法利用超幾何分布 (hypergeometric distribution)的原理推斷每個(gè)基因集中差異表達(dá)基因的比例是否與整個(gè)基因芯片上差異表達(dá)基因的比例相同。

    聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過程。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。基因表達(dá)譜數(shù)據(jù)的聚類分析,目的是為了將尋找一類類似的基因,如具有共同的調(diào)控原件、具有相似的生物學(xué)功能或具有相同的祖先等。這樣的聚類往往可以發(fā)現(xiàn)一些未知領(lǐng)域,可以根據(jù)類中已知基因的功能而得知推斷未知基因的功能。聚類分析要確定兩個(gè)特征向量間的合適的測(cè)度及相似度,并確定算法方案,根據(jù)選定的相似性測(cè)度對(duì)向量進(jìn)行聚類。常用的相似性測(cè)度包括歐氏距離(Euclideandistance)、明考斯基距離(Minkowski distance)、皮爾遜相關(guān)距離(Pearson correlationdistance)、馬氏距離(Manhattan distance)等。聚類方法的分類可以有很多種,按照是否具有先驗(yàn)知識(shí)而分為監(jiān)督聚類(supervised clustering)和非監(jiān)督聚類(unsupervised clustering)。非監(jiān)督聚類中的層級(jí)聚類(hierarchical clustering)、k means 聚類、自組織圖、主成分分析等算法已經(jīng)廣泛地運(yùn)用到基因表達(dá)分析中?;蚓垲惙治鲋腥菀资艿皆朦c(diǎn)基因的干擾,而且要求算法的準(zhǔn)確性和有效性較高,目前較常用的方法包括模糊聚類和人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)方法中自組織映射(Self Organizing Map, SOM)使用的最多,它采用的是結(jié)構(gòu)簡(jiǎn)單的單層競(jìng)爭(zhēng)性神經(jīng)網(wǎng)絡(luò)模式在輸入端引入并與輸出結(jié)點(diǎn)關(guān)聯(lián),其間的權(quán)重通過學(xué)習(xí)反復(fù)變更,直到達(dá)到終止標(biāo)準(zhǔn),結(jié)果是相似的模式被分入同組,并為同一個(gè)單位神經(jīng)元所代表。不同的聚類過程側(cè)重于不同的相似性,那么聚類的結(jié)果也會(huì)有所不同。在聚類之前,一般要考慮一下四方面的內(nèi)容:(1)什么樣的數(shù)據(jù),是原始的標(biāo)準(zhǔn)化后的數(shù)據(jù),還是 log 轉(zhuǎn)化后的數(shù)據(jù),或者是做了另外方法轉(zhuǎn)化后的數(shù)據(jù);(2)需要用全部的基因還是選擇性的使用部分基因;(3)需要用什么樣的矩陣把所選擇的基因結(jié)合起來;(4)運(yùn)用什么樣的聚類算法?;虮磉_(dá)譜聚類分析已經(jīng)被應(yīng)用到各個(gè)領(lǐng)域,如癌癥,個(gè)體行為關(guān)系等。

版權(quán)聲明:本文轉(zhuǎn)自網(wǎng)絡(luò),出于傳遞更多信息之目的,如有侵權(quán)請(qǐng)聯(lián)系【編輯qq:1240812330】刪除,謝謝!

APP下載
官方微信
返回頂部