日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

(转)基因芯片数据GO和KEGG功能分析

發(fā)布時間:2023/12/15 35 生活家
生活随笔 收集整理的這篇文章主要介紹了 (转)基因芯片数据GO和KEGG功能分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

隨著人類基因組計劃(Human Genome Project)即全部核苷酸測序的即將完成,人類基因組研究的重心逐漸進入后基因組時代(Postgenome Era),向基因的功能及基因的多樣性傾斜。通過對個體在不同生長發(fā)育階段或不同生理狀態(tài)下大量基因表達的平行分析,研究相應基因在生物體內(nèi)的功能,闡明不同層次多基因協(xié)同作用的機理,進而在人類重大疾病如癌癥、心血管疾病的發(fā)病機理、診斷治療、藥物開發(fā)等方面的研究發(fā)揮巨大的作用。它將大大推動人類結(jié)構(gòu)基因組及功能基因組的各項基因組研究計劃。生物信息學在基因組學中發(fā)揮著重大的作用,而另一項嶄新的技術(shù)——基因芯片已經(jīng)成為大規(guī)模探索和提取生物分子信息的強有力手段,將在后基因組研究中發(fā)揮突出的作用。基因芯片與生物信息學是相輔相成的,基因芯片技術(shù)本身是為了解決如何快速獲得龐大遺傳信息而發(fā)展起來的,可以為生物信息學研究提供必需的數(shù)據(jù)庫,同時基因芯片的數(shù)據(jù)分析也極大地依賴于生物信息學,因此兩者的結(jié)合給分子生物學研究提供了一條快捷通道。

本文介紹了幾種常用的基因功能分析方法和工具:

一、GO基因本體論分類法

最先出現(xiàn)的芯片數(shù)據(jù)基因功能分析法是GO分類法。Gene Ontology(GO,即基因本體論)數(shù)據(jù)庫是一個較大的公開的生物分類學網(wǎng)絡資源的一部分,它包含38675個EntrezGene注釋基因中的17348個,并把它們的功能分為三類:分子功能,生物學過程和細胞組分。在每一個分類中,都提供一個描述功能信息的分級結(jié)構(gòu)。這樣,GO中每一個分類術(shù)語都以一種被稱為定向非循環(huán)圖表(DAGs)的結(jié)構(gòu)組織起來。研究者可以通過GO分類號和各種GO數(shù)據(jù)庫相關(guān)分析工具將分類與具體基因聯(lián)系起來,從而對這個基因的功能進行描述。在芯片的數(shù)據(jù)分析中,研究者可以找出哪些變化基因?qū)儆谝粋€共同的GO功能分支,并用統(tǒng)計學方法檢定結(jié)果是否具有統(tǒng)計學意義,從而得出變化基因主要參與了哪些生物功能。

EASE(Expressing Analysis SystematicExplorer)是比較早的用于芯片功能分析的網(wǎng)絡平臺。由美國國立衛(wèi)生研究院(NIH)的研究人員開發(fā)。研究者可以用多種不同的格式將芯片中得到的基因?qū)隕ASE進行分析,EASE會找出這一系列的基因都存在于哪些GO分類中。其最主要特點是提供了一些統(tǒng)計學選項以判斷得到的GO分類是否符合統(tǒng)計學標準。EASE能進行的統(tǒng)計學檢驗主要包括Fisher精確概率檢驗,或是對Fisher精確概率檢驗進行了修飾的EASE得分(EASE score)。


由于進行統(tǒng)計學檢驗的GO分類的數(shù)量很多,所以EASE采取了一系列方法對“多重檢驗”的結(jié)果進行校正。這些方法包括弗朗尼校正法
(Bonferroni),本杰明假陽性率法(Benjamini falsediscovery rate)和靴帶法(bootstraping)。同年出現(xiàn)的基于GO分類的芯片基因功能分析平臺還有底特律韋恩大學開發(fā)的Onto-Express。2002年,挪威大學和烏普薩拉大學聯(lián)合推出的Rosetta系統(tǒng)將GO分類與基因表達數(shù)據(jù)相聯(lián)系,引入了“最小決定法則”(minimal decision rules)的概念。它的基本思想是在對多張芯片結(jié)果進行聚類分析之后,與表達模式不相近的基因相比,相近的基因更有可能參與相同的生物學功能的實現(xiàn)。

GCBI分析平臺:是一個新型的網(wǎng)絡分析平臺,全稱是Gene-Cloud of Biotechnology Information。
GO-Analysis是對基因進行顯著性功能(GO)的分析。由于GO的條目中包含功能的層級關(guān)系,從而GO中包含基因的數(shù)目變化較大,通常在一到幾百個基因之間。GCBI的功能分析主要用Fisher精確檢驗,即利用如下的四格表:

在這個假設下分別利用fisher精確檢驗和 檢驗,分別得到 值和 值,通過多重比較檢驗,確定GO的FDR。最后得出顯著性GO,完成GO-Analysis。

ENRICHMENT計算公式為:

比較著名的基于GO分類法的芯片數(shù)據(jù)分析網(wǎng)絡平臺還有七十多個,表1列舉了其中的一部分。

Name

InternetSite

GCBI

https://www.gcbi.com.cn/gclab

Onto-Tools

http://vortex.cs.wayne.edu/projects.htm

ROSETTA

http://rosetta.lcb.uu.se/general/

GOToolBox

http://burgundy.cmmt.ubc.ca/GOToolBox/

GOstat

http://gostat.wehi.edu.au/

GFINDer

http://www.medinfopoli.polimi.it/GFINDer/

FatiGO

http://www.fatigo.org/

EASE

http://david.abcc.ncifcrf.gov/ease/ease.jsp


表1用GO分類法進行芯片功能分析的網(wǎng)絡平臺

二、Pathway通路分析法

通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法。與GO分類法(應用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學通路。研究者可以把表達發(fā)生變化的基因列表導入通路分析軟件中,進而得到變化的基因都存在于哪些已知通路中,并通過統(tǒng)計學方法計算哪些通路與基因表達的變化最為相關(guān)。現(xiàn)在已經(jīng)有豐富的數(shù)據(jù)庫資源幫助研究人員了解及檢索生物學通路,對芯片的結(jié)果進行分析。主要的生物學通路數(shù)據(jù)庫有以下兩個:

①KEGG數(shù)據(jù)庫:迄今為止,KEGG數(shù)據(jù)庫(Kyotoencyclopedia of genes and genomes)是向公眾開放的最為著名的生物學通路方面的資源網(wǎng)站。在這個網(wǎng)站中,每一種生物學通路都有專門的圖示說明。

②BioCarta數(shù)據(jù)庫:BioCarta是一家生物技術(shù)公司,它在其公共網(wǎng)站上提供了用于繪制生物學通路的模板。研究者可以把符合標準的生物學通路提供給BioCarta數(shù)據(jù)庫。BioCarta數(shù)據(jù)庫不會檢驗這些生物學通路的質(zhì)量,因此其中的資源質(zhì)量參差不齊,并且有許多相互重復。然而BioCarta數(shù)據(jù)庫數(shù)據(jù)量巨大,且不同于KEGG數(shù)據(jù)庫,包含了大量代謝通路之外的生物學通路,所以也得到廣泛的應用。

最先出現(xiàn)的通路分析軟件之一是GenMAPP(gene microarray pathwayprofiler)。它可以免費使用,其最新版本為Gen-MAPP2。在這個軟件中,使用者可以用幾種靈活的文件格式輸入自己的表達譜數(shù)據(jù),GenMAPP的基因數(shù)據(jù)庫包含許多從常用的資源中得到的物種特異性的基因注釋和識別符(ID)。這些ID可以將使用者輸入的基因與不同的生物學通路的基因聯(lián)系起來。這些生物學通路存在于GenMAPP的MAPP文件中。MAPP文件需要時常下載更新。它包含有許多KEGG生物學通路,一些GenMAPP自己的生物學通路和許多GO分類的MAPP文件,全部操作簡單明了。而且依靠其自帶的MAPPBuilder和MAPPFinder兩個軟件,使用者可以自己繪制生物學通路和對MAPP文件進行檢索。由于使用者可以自己繪制生物學通路保存為MAPP格式,這個文件很小易于在網(wǎng)絡上傳播,所以GenMAPP數(shù)據(jù)庫更有利于研究者之間的及時交流。由于上述特點,GenMAPP數(shù)據(jù)庫及軟件仍是現(xiàn)今免費平臺里應用比較廣泛的。

2004年推出的Pathway Miner也是應用較為廣泛的免費通路分析網(wǎng)絡平臺,由美國亞利桑那大學癌癥中心建立維護,其最突出的特點就是信息全面,操作簡便。使用者可以在這個網(wǎng)站中獲得單個基因的序列、功能注釋,以及有關(guān)它們編碼的蛋白結(jié)構(gòu)功能,組織分布,OMIM等信息。對于通路分析部分,使用者給出基因列表及他們的表達變化值,網(wǎng)站可以根據(jù)三大公用的通路數(shù)據(jù)庫:KEGG、GenMAPP和BioCarta,生成變化基因參與的通路,并用fisher精確概率檢驗。PathwayMiner自動把得到的通路分成兩大類:代謝通路和細胞調(diào)節(jié)通路。方便使用者根據(jù)不同的研究目的選擇需要查看的結(jié)果。

在2006年國內(nèi)也開發(fā)了用于通路分析的網(wǎng)絡平臺,即KOBAS(KO-Based Annotation System),其基于KEGG數(shù)據(jù)庫建立,由北京大學生命科學院開發(fā)和維護。其特點是可直接采用基因或蛋白質(zhì)的序列錄入基因,并對錄入的基因列表進行KO注釋。對于結(jié)果的可靠性檢驗提供了四種統(tǒng)計方法。使用者可以在網(wǎng)站進行注冊,網(wǎng)站會為使用者保存輸入的數(shù)據(jù),方便日后直接調(diào)用。最近推出的軟件Eu.Gene整合了來自KEGG,Gen-MAPP以及Reactome的通路數(shù)據(jù),并采用fisher精確概率檢驗及基因集富集分析(Gene Set Enrichment Analysis, GSEA)來檢驗結(jié)果是否具有統(tǒng)計學意義。

2014年國內(nèi)的第二款網(wǎng)絡分析平臺GCBI也上線了,不過GCBI網(wǎng)絡分析平臺不僅僅是針對通路分析。最后會詳細介紹一下。

表2列舉了部分通路分析的網(wǎng)絡平臺及它們的網(wǎng)址。

Name

Internet Site

GenMAPP

http://www.genmapp.org/

PathwayMiner

http://www.biorag.org/pathway.html

KOBAS

http://kobas.cbi.pku.edu.cn

GEPAT

http://gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faces

VitaPad

http://bioinformatics.med.yale.edu/group

KEGGanim

http://biit.cs.ut.ee/kegganim/

WholePathwayScope

http://www.abcc.ncifcrf.gov/wps/wps_index.php

VisANT 3.0

http://visant.bu.edu/

Eu.Gene

http://www.ducciocavalieri.org/bio/Eugene.htm

GCBI

https://www.gcbi.com.cn/gclib/html/dictSearch/VFA1Mw

表二通路分析網(wǎng)絡平臺

三、基因調(diào)控網(wǎng)絡分析

通路分析法是芯片功能分析的有力工具之一,其與GO分類法的主要區(qū)別也正是它的弱點。在生物反應的過程中,發(fā)生表達變化的基因通常不只局限在一個通路中,而是存在于由許多調(diào)控因子和通路參與的復雜調(diào)控網(wǎng)絡中。生物調(diào)控網(wǎng)絡十分復雜,并沒有現(xiàn)成的文獻和數(shù)據(jù)庫供參考。而且,把芯片中發(fā)生表達變化的基因放在生物調(diào)控網(wǎng)絡的水平來看,它們通常在多個通路中都有分布,而每個通路只包含幾個發(fā)生表達變化的基因。這就解釋了為什么有些通路只有部分基因表達發(fā)生變化,而且表達變化的趨勢在整個通路水平上不一定是一致的。

進行生物調(diào)控網(wǎng)絡的研究需要更多的數(shù)據(jù)庫及分析工具的支持。比如需要關(guān)于基因組調(diào)控序列(啟動子和增強子)的信息,現(xiàn)在已經(jīng)有許多關(guān)于轉(zhuǎn)錄因子結(jié)合位點(transcriptionfactor binding site, TFBS)的數(shù)據(jù)庫可以滿足這個要求,如TRANSFAC及JASPAR。而且芯片檢測的基因變化應該深入到轉(zhuǎn)錄本水平,因為不同的轉(zhuǎn)錄本的轉(zhuǎn)錄可能是由不同的啟動子啟動的。外顯子連接芯片(exonjunction microarray)將基因組中外顯子與外顯子之間的連接序列做成36nt的探針點到芯片上,與樣本mRNA進行雜交后可檢測出樣本中多外顯子基因pre-mRNA的剪接狀況。

轉(zhuǎn)錄調(diào)節(jié)控制基因表達,調(diào)控不同組織中的細胞在各種生理條件及外界刺激下的反應。不同于原核細胞,真核細胞的轉(zhuǎn)錄調(diào)節(jié)涉及大量轉(zhuǎn)錄因子的相互作用,而且基因組調(diào)控序列不只位于啟動子,還包括內(nèi)含子及許多基因下游序列。所以真正了解真核細胞的基因調(diào)控網(wǎng)絡是一項非常艱巨的工作。用基因調(diào)控網(wǎng)絡來分析基因芯片數(shù)據(jù)還需要更多信息及技術(shù)的支持。

四、(差異基因+GO&Pathway analysis+網(wǎng)絡圖)一鍵式分析

常見的芯片功能分析有差異分析、GO&Pathway analysis、網(wǎng)絡分析,一項差異分析得到的差異基因過多,不利于后面的研究,做芯片功能分析的時候一般是選擇多項聯(lián)合分析,有的時候為了研究的需要還會用到多種類型的芯片數(shù)據(jù),比如microRNA-gene-lncRNA的網(wǎng)絡圖分析就用到了兩種芯片。

GCBI一鍵式分析平臺:這個平臺可以進行多種芯片的功能分析。

目前支持的分析:差異分析、GO analysis、pathway analysis、STC、STC GO、pathway-Network、Signal-Network、gene-Coexpression-Network、lncRNA-Gene-Network、miRNA-Gene-Network、 miRNA-GO-Network等。

差異分析:為了得到可驗證性的高質(zhì)量差異結(jié)果,GCBI實驗室推薦每個分組(Each Group)的樣本數(shù)不少于3。而且為了保證后續(xù)交叉分析(如miRNA與mRNA聯(lián)合分析,多次差異結(jié)果的交集、并集或扣除等)結(jié)果的可靠性,GCBI實驗室推薦每種平臺類型的芯片總樣本數(shù)不少于10。

聚類圖:下面給出GCBI實驗室處理聚類圖的一些步驟細節(jié):

(1)首先計算基因與樣本間的相關(guān)性,即計算基因間的皮爾森Pearson相關(guān)系數(shù)ρij,以1?ρij作為基因i與j之間的距離按照先基因、后樣本的順序,將基因表達數(shù)據(jù)進行層次聚類,連接方法為AverageLink。

(2)然后對差異基因表達值做中位數(shù)標準化,數(shù)學表示為:

gij= gij-median(gi*)

(3)取標準化后數(shù)據(jù)信號值的10與90分位數(shù)對整個差異表達數(shù)據(jù)做最低值與最高值數(shù)值截斷,將上述截斷值按照顏色層級分為20個漸變狀態(tài),可見于聚類圖左上角的標示。

(4)最后在聚類圖的上方標示了樣本的分組信息,即相同分組的樣本標示為同一個顏色。

其他分析方法見www.gcbi.com.cn的實驗室。

進行芯片功能分析的方法還有很多,最常見的軟件就是R語言、perl語言等,還有一些分析平臺,如國外的七橋基因、國內(nèi)的KOBAS、GCBI等,具體的選擇還要根據(jù)自己的研究來決定。

總結(jié)

以上是生活随笔為你收集整理的(转)基因芯片数据GO和KEGG功能分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。