日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

如何根据PPI网络进一步挖掘信息

發(fā)布時(shí)間:2023/12/8 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何根据PPI网络进一步挖掘信息 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

歡迎關(guān)注微信公眾號(hào)《生信修煉手冊(cè)》!

從數(shù)據(jù)庫(kù)中得到蛋白質(zhì)的相互作用信息之后,我們可以構(gòu)建蛋白質(zhì)間的相互作用網(wǎng)絡(luò),但是這個(gè)網(wǎng)絡(luò)是非常復(fù)雜的,節(jié)點(diǎn)和連線的個(gè)數(shù)很多,如果從整體上看,很難挖掘出任何有生物學(xué)價(jià)值的信息,所以我們需要借助一些算法來(lái)深入挖掘。

隨著各個(gè)數(shù)據(jù)庫(kù)中信息通量的不斷提高,基于網(wǎng)絡(luò)的分析方法越來(lái)越受歡迎,比如我們常見(jiàn)的蛋白質(zhì)相互網(wǎng)絡(luò),基因共表達(dá)網(wǎng)絡(luò),轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò),pathway網(wǎng)絡(luò)等等,為了更好的理解后續(xù)的數(shù)據(jù)挖掘算法,首選要對(duì)網(wǎng)路的屬性有一些基本了解。

從數(shù)據(jù)結(jié)構(gòu)上看,我們所說(shuō)的網(wǎng)絡(luò)network是屬于圖Graph這一數(shù)據(jù)結(jié)構(gòu)的,網(wǎng)絡(luò)是一種比較直觀的描述,就是點(diǎn)和點(diǎn)之間的連線,在算法上,為了準(zhǔn)確描述一個(gè)網(wǎng)絡(luò),通常借助于鄰接矩陣,示意如下

在網(wǎng)絡(luò)中,根據(jù)節(jié)點(diǎn)的連線是否具有方向,可以劃分為有向圖和無(wú)向圖兩類(lèi),無(wú)向圖中被一條線連接的兩個(gè)節(jié)點(diǎn)其作用是相互的,比如基因共表達(dá)網(wǎng)絡(luò),兩個(gè)基因間互為共表達(dá)基因,而有向圖中,連線是有方向性的,比如轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò),轉(zhuǎn)錄因子調(diào)控基因,所以連線由轉(zhuǎn)錄因子指向某個(gè)基因。

無(wú)向圖的描述為undirected graph, 有向圖的描述為directed graph。PPI網(wǎng)絡(luò)由于蛋白的作用是相互的,所以通常歸類(lèi)為無(wú)向圖。

除了連線的方向性,根據(jù)連線對(duì)應(yīng)的值,可以將網(wǎng)絡(luò)圖分為加權(quán)和非加權(quán)兩種, 以基因共表達(dá)網(wǎng)絡(luò)為例,非加權(quán)圖中連線是一個(gè)定性描述,兩個(gè)基因具有共表達(dá)的趨勢(shì),就可以用連線連接,而加權(quán)圖是一個(gè)定量描述,兩個(gè)基因間共表達(dá)系數(shù)的大小對(duì)應(yīng)邊的值,在可視化時(shí),值不同,對(duì)應(yīng)邊的粗細(xì)也不同。

鄰接矩陣可以方便的描述任意一種類(lèi)別的網(wǎng)絡(luò),如上圖所示,鄰接矩陣是一個(gè)二維矩陣,而且是一個(gè)方陣,行和列代表的都是圖中的節(jié)點(diǎn),在非加權(quán)圖中,0代表兩個(gè)節(jié)點(diǎn)沒(méi)有連線,1代表兩個(gè)節(jié)點(diǎn)間存在連線;在加權(quán)圖中,每個(gè)單元格數(shù)值對(duì)應(yīng)每條邊的數(shù)值。

對(duì)于網(wǎng)絡(luò)而言,需要了解以下幾個(gè)基本概念

1. degree

網(wǎng)絡(luò)由節(jié)點(diǎn)和邊構(gòu)成,對(duì)于一個(gè)節(jié)點(diǎn)而言, 該節(jié)點(diǎn)連線的多少,即為該節(jié)點(diǎn)的degree, 稱(chēng)之度,對(duì)于有向圖,根據(jù)連線的防線,度又劃分為入度和出度, 示意如下

圖中每個(gè)節(jié)點(diǎn)上標(biāo)記的數(shù)字就是該節(jié)點(diǎn)的度數(shù)。

2. shorest path

最短路徑表示兩個(gè)節(jié)點(diǎn)間的最短距離,在網(wǎng)絡(luò)中,從一個(gè)節(jié)點(diǎn)到另外一個(gè)節(jié)點(diǎn),可以有很多個(gè)路徑,其中經(jīng)過(guò)的節(jié)點(diǎn)數(shù)最少的稱(chēng)之為最短路徑,示意如下

上述到A到B的最短路徑為5。

3. closeness centrality

該統(tǒng)計(jì)量用來(lái)衡量節(jié)點(diǎn)的重要程度,基于最短路徑進(jìn)行定義,公式如下

4. Betweenness centrality

和closeness centrality類(lèi)似,也是用來(lái)表征節(jié)點(diǎn)的重要程度,公式如下

在上圖中。刪除B和C中的任意一個(gè),A都可以連接到E, 但是刪除了D就不行了,所以D就比較重要。

5. density

密度代表的是網(wǎng)絡(luò)中實(shí)際的連線數(shù)與理論最大連線數(shù)的比值,對(duì)于包含n個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò),其最大的變數(shù)為任意兩個(gè)節(jié)點(diǎn)之間都相連,共 n(n-1)/2, 示意如下


密度用來(lái)衡量一個(gè)網(wǎng)絡(luò)的密集程度。

6. Clustering Coefficient

聚集系數(shù),和密度類(lèi)似,也叫做transitity,有兩種定義,第一種稱(chēng)之為local clustering coefficient, 針對(duì)單個(gè)節(jié)點(diǎn)進(jìn)行定義,對(duì)于某個(gè)節(jié)點(diǎn)而言,該統(tǒng)計(jì)量的值為與該節(jié)點(diǎn)直接相鄰的鄰近節(jié)點(diǎn)構(gòu)成的網(wǎng)絡(luò)的密度,示意如下

上圖中的第一個(gè)網(wǎng)絡(luò),所有節(jié)點(diǎn)構(gòu)成了一個(gè)clique, 即完全連通圖,任意兩個(gè)節(jié)點(diǎn)之間都存在了連線,local clustering coefficient 可以看做是衡量鄰近節(jié)點(diǎn)組成的網(wǎng)絡(luò)與完全聯(lián)通圖接近的程度,取值范圍0到1,越接近于1,越接近一個(gè)完全連通圖。

在此基礎(chǔ)上,針對(duì)一個(gè)網(wǎng)絡(luò),還出現(xiàn)了average clustering coefficient的概念,就是計(jì)算每個(gè)節(jié)點(diǎn)的local clustering coefficient, 然后取平均值,公式如下

第二種是對(duì)于整個(gè)網(wǎng)絡(luò)而言,稱(chēng)之為global clustering coefficient, 這個(gè)值的定義是在triangle graph的基礎(chǔ)上,triangle graph直譯過(guò)來(lái)就是三角形圖,即3個(gè)節(jié)點(diǎn)構(gòu)成的網(wǎng)絡(luò),示意如下

如上圖所示,如果三個(gè)節(jié)點(diǎn)構(gòu)成的網(wǎng)絡(luò)是一個(gè)閉合的三角形,稱(chēng)之為closed triangle graph, 如果缺失了其中一條邊,稱(chēng)之為open triangle graph。

global clustering coefficient 有以下兩種定義方式

有文獻(xiàn)研究發(fā)現(xiàn)真實(shí)世界的網(wǎng)絡(luò)是一個(gè)scale-free network, 中文是無(wú)標(biāo)度網(wǎng)絡(luò),意思是說(shuō)在這個(gè)網(wǎng)絡(luò)中,大部分的節(jié)點(diǎn)其度數(shù)都很低,只有部分節(jié)點(diǎn)有用很高的度數(shù),示意如下

上圖中的網(wǎng)絡(luò)就是一個(gè)scale-free network, 只有黃色節(jié)點(diǎn)的度數(shù)較高,藍(lán)色節(jié)點(diǎn)度數(shù)很低,在整個(gè)網(wǎng)絡(luò)中,大部分都是藍(lán)色節(jié)點(diǎn),如果繪制該網(wǎng)絡(luò)的節(jié)點(diǎn)度數(shù)分布圖,應(yīng)該是如下的一個(gè)趨勢(shì)

橫坐標(biāo)為度數(shù),縱坐標(biāo)為為節(jié)點(diǎn)數(shù),度數(shù)很低的節(jié)點(diǎn)占大多數(shù),度數(shù)高的節(jié)點(diǎn)只是少數(shù),當(dāng)然這種描述是一種定性描述,為了準(zhǔn)確描述,提出了冪律分布的概念,即上述分布圖對(duì)應(yīng)的表達(dá)式為

X代表度數(shù),Y代表對(duì)應(yīng)的節(jié)點(diǎn)數(shù),有趣的是,將X和Y同時(shí)取對(duì)數(shù),可以轉(zhuǎn)換為一個(gè)線性方程, 推倒如下

取對(duì)數(shù)之后的分布如下

對(duì)數(shù)轉(zhuǎn)換之后,可以通過(guò)線性擬合確定各個(gè)系數(shù)的值,在之前的WGCNA中,選擇最佳的power其實(shí)就是這個(gè)原理,通過(guò)比較不同power值條件下,線性擬合的R2值的大小,選擇一個(gè)擬合效果最好的值。

在復(fù)雜的網(wǎng)絡(luò)中,會(huì)存在部分密度較高的區(qū)域,這樣的區(qū)域稱(chēng)之為community, 也有module等叫法,示意如下

在community內(nèi)部,連線的密度較高,而區(qū)域部分的連線就少。community被認(rèn)為是具有生物學(xué)意義的集合。對(duì)于PPI網(wǎng)絡(luò)而言,其modules通常有以下兩種生物學(xué)含義

  • protein complex
    蛋白質(zhì)復(fù)合體,由多個(gè)蛋白質(zhì)共同組成復(fù)合體,然后發(fā)揮生物學(xué)作用。

  • functional module
    功能模塊,比如位于同一個(gè)pathway中的蛋白,其相互作用肯定更加密切。

  • 所以得到網(wǎng)絡(luò)之后,我們需要去識(shí)別communities,目前的有多種算法可用選擇,在PPI網(wǎng)絡(luò)中,常用的有以下算法

  • MCODE
  • MCL
  • Nwewan-Girvan fast greedy algorithm
  • 在后續(xù)的文章中,會(huì)介紹相應(yīng)的工具,來(lái)從PPI網(wǎng)絡(luò)中挖掘信息。

    掃描關(guān)注微信號(hào),更多精彩內(nèi)容等著你!

    總結(jié)

    以上是生活随笔為你收集整理的如何根据PPI网络进一步挖掘信息的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。