随机网络模型
要理解網(wǎng)絡(luò)結(jié)構(gòu)與網(wǎng)絡(luò)行為之間的關(guān)系并進而考慮改善網(wǎng)絡(luò)的行為,就需要對實際網(wǎng)絡(luò)的結(jié)構(gòu)特征有很好的了解,并在此基礎(chǔ)上建立合適的網(wǎng)絡(luò)拓?fù)淠P汀?/p>
一、從規(guī)則網(wǎng)絡(luò)說起
1、常見規(guī)則網(wǎng)絡(luò)
上圖中顯示了3中規(guī)則網(wǎng)絡(luò):全局耦合網(wǎng)絡(luò)、最近鄰耦合網(wǎng)絡(luò)、星形耦合網(wǎng)絡(luò)。下面我們來一一介紹。
1.1 全局耦合網(wǎng)絡(luò)
如果一個網(wǎng)絡(luò)中任意兩個節(jié)點之間都有邊直接相連,那么就稱該網(wǎng)絡(luò)為一個全局耦合網(wǎng)絡(luò),簡稱全耦合網(wǎng)絡(luò)。
但在實際中一個大規(guī)模的全耦合網(wǎng)絡(luò)維護起來非常困難,例如我們在學(xué)校,不可能所有人都認(rèn)識,也不可能什么都不干,每天去認(rèn)識人。這也反映了全耦合網(wǎng)絡(luò)作為實際網(wǎng)絡(luò)模型的局限性:大型實際網(wǎng)絡(luò)一般都是稀疏的,它們的邊的數(shù)目一般至多是O(N),而不是O(N2^22)。
另一方面,盡管從全局看大規(guī)模實際網(wǎng)絡(luò)具有稀疏性,但是,網(wǎng)絡(luò)中可能會存在不少稠密的甚至是全耦合的子圖。
1.2 最近鄰耦合網(wǎng)絡(luò)
如果在一個網(wǎng)絡(luò)中,每一個節(jié)點只和它周圍的鄰居節(jié)點相連,那么就稱該網(wǎng)絡(luò)為最近鄰耦合網(wǎng)絡(luò)。這是一個得到大量研究的稀疏的規(guī)則網(wǎng)絡(luò)模型。
上圖(b)是常見的一種具有周期邊界條件的最近鄰耦合網(wǎng)絡(luò)包含圍成一個環(huán)的N個節(jié)點,其中每個節(jié)點都與它左右各K/2各鄰居點相連,這里K是一個偶數(shù)。
1.3 星形耦合網(wǎng)絡(luò)
這是另外一個常見的規(guī)則網(wǎng)絡(luò),它有一個中心點,其余的N-1個點都只與這個中心點連接,而它們彼此之間不連接。這個模型也可推廣到具有多個中心的情形。
2、基本拓?fù)湫再|(zhì)
2.1 全耦合網(wǎng)絡(luò)
N個節(jié)點構(gòu)成的全耦合網(wǎng)絡(luò)中有N(N-1)/2條邊。在具有相同節(jié)點數(shù)的所有網(wǎng)絡(luò)中,全耦合網(wǎng)絡(luò)具有最多的邊數(shù)、最大的聚類系數(shù)Cgc_{gc}gc?=1和最小平均路徑長度Lgc_{gc}gc?=1。
2.2 最近鄰耦合網(wǎng)絡(luò)
(1)聚類系數(shù):我們采用基于網(wǎng)絡(luò)中三角形數(shù)量的聚類系數(shù)的定義來計算上圖(b)所示的最近鄰耦合網(wǎng)絡(luò)的聚類系數(shù)。假設(shè)N充分大,K是一個與N無關(guān)的常數(shù)并且K<<N。首先注意到這樣一個事實:網(wǎng)絡(luò)中任意一個三角形都可以看作是從一個節(jié)點出發(fā),先沿著同一個方向走兩條邊,然后再沿著反方向走一條邊形成的。由于反方向的邊的最大跨度為K/2,從一節(jié)點出發(fā)的三角形的數(shù)量就等于從K/2個節(jié)點中選取兩個節(jié)點的組合數(shù),即為
另一方面,網(wǎng)絡(luò)中任意一個節(jié)點為中心的連通三元組的數(shù)目為:
于是,最近鄰耦合網(wǎng)絡(luò)的聚類系數(shù)為:
(2)平均路徑長度:網(wǎng)絡(luò)中一個節(jié)點能在一步到達的最遠的節(jié)點與該節(jié)點的格子間距為K/2。兩個格子間距為m的節(jié)點之間的距離為?\lceil? 2m/K ?\rceil?,即不小于 2m/K的最小整數(shù)。該網(wǎng)絡(luò)的平均路徑長度為:
對固定的K值,當(dāng)N->∞\infty∞時,Lnc_{nc}nc?->∞\infty∞。這可以從側(cè)面解釋為什么在這樣一個局部耦合的網(wǎng)絡(luò)中很難實現(xiàn)需要全局協(xié)調(diào)的動態(tài)過程。
2.3 星形網(wǎng)絡(luò)
聚類系數(shù):Cstar_{star}star?=0。
這是因為中心節(jié)點的N-1個鄰居節(jié)點之間互不相連,從而中心節(jié)點的聚類系數(shù)也為0。
平均路徑長度:
二、隨機圖
1、模型描述
與完全規(guī)則網(wǎng)絡(luò)相對應(yīng)的是完全隨機網(wǎng)絡(luò),最為經(jīng)典的模型是ER隨機圖模型。該模型既易于描述又可通過解析方法研究。
ER隨機圖具有兩種形式的定義:
1.1 具有固定邊數(shù)的ER隨機圖G(N,M)
ER隨機圖G(N,M)構(gòu)造算法:
(1)初始化:給定N個節(jié)點和待添加的邊數(shù)M。
(2)隨機連邊:
1)隨機選取一對沒有邊相連的不同的節(jié)點,并在這對節(jié)點之間添加一條邊。
2)重復(fù)步驟1),直至在M對不同的節(jié)點對之間各添加了一條邊。
從另一個等價的角度看,該模型是從所有的具有N個節(jié)點和M條邊的簡單圖中隨機地選取出來的。正是由于隨機性的存在,盡管給定了網(wǎng)絡(luò)中的節(jié)點數(shù)N和邊數(shù)M,如果在計算機上重復(fù)做兩次實驗,生成的網(wǎng)絡(luò)一般也是不同的。因此,嚴(yán)格來說,隨機圖模型并不是指隨機生成的單個網(wǎng)絡(luò),而是指一簇網(wǎng)絡(luò)。G(N,M)的嚴(yán)格定義是所有圖G上的一個概率分布P(G):記具有N個節(jié)點和M條邊的簡單圖的數(shù)目為Ω\OmegaΩ,那么對于任一這樣的簡單圖有P(G)=1/Ω\OmegaΩ,而對于任一其他圖有P(G)=0。
在討論隨機圖的性質(zhì)時,通常是指這一簇網(wǎng)絡(luò)的平均性質(zhì)。例如,G(N,M)的直徑是指該簇網(wǎng)絡(luò)直徑的平均值,即有:
其中D(G)為圖G的直徑。
采用這種“平均化”的合理性:許多網(wǎng)絡(luò)模型的度量值的分布都具有顯著的尖峰特征,當(dāng)網(wǎng)絡(luò)規(guī)模變大時越來越聚集在這簇網(wǎng)絡(luò)的平均值附近。因此,當(dāng)網(wǎng)絡(luò)規(guī)模趨于無窮時,絕大部分的度量值都會與均值非常接近。
1.2 具有固定連邊概率的ER隨機圖G(N,p)
在模型G(N,p)中不固定總的邊數(shù),而是把N個節(jié)點中任意兩個不同的節(jié)點之間有一條邊的概率固定為p,構(gòu)造算法如下:
(1)初始化:給定N個節(jié)點以及連邊概率p∈\in∈[0,1]。
(2)隨機連邊:
1):選擇一對沒有邊相連的不同的節(jié)點。
2):生成一個隨機數(shù)r∈\in∈(0,1)。
3):如果r<p,那么在這對節(jié)點之間添加一條邊;否則就不添加邊。
4):重復(fù)步驟1)到3),直至所有的節(jié)點對都被選擇過一次。
上述算法生成的隨機圖具有如下幾種情形:
(1)如果p=0,那么G(N,p)只有一種可能:N個孤立節(jié)點,邊數(shù)M=0。
(2)如果p=1,那么G(N,p)也只有一種可能:N個節(jié)點組成的全耦合網(wǎng)絡(luò),邊數(shù)M=12\frac 1221?N(N-1)。
(3)如果p∈\in∈(0,1),那么從理論上說,N個節(jié)點生成具有任一給定的邊數(shù)M∈\in∈[0,12\frac 1221?N(N-1)]的網(wǎng)絡(luò)都是有可能的。
2、拓?fù)湫再|(zhì)
2.1 邊數(shù)分布
給定網(wǎng)絡(luò)節(jié)點數(shù)N和連邊概率p,生成的隨機圖恰好具有M條邊的概率為標(biāo)準(zhǔn)的二項分布:
其中,
表示具有N個節(jié)點和M條邊的簡單圖的數(shù)量;
表示有M對節(jié)點之間添加了邊,
對節(jié)點之間沒有添加邊。
邊數(shù)分布的平均值:
這一結(jié)果其實是自然的:N個節(jié)點可以組合成N(N-1)/2個節(jié)點對,而每個節(jié)點對之間存在邊的概率都為p。
邊數(shù)分布的方差:
方差刻畫了實際生成模型的邊數(shù)圍繞均值< M >的波動大小。進一步的,為了消除由于網(wǎng)絡(luò)參數(shù)不同而導(dǎo)致邊數(shù)的均值不同所帶來的影響,可以用統(tǒng)計學(xué)中的變異系數(shù)來刻畫所生成的網(wǎng)絡(luò)邊數(shù)偏離均值< M >的程度。
邊數(shù)分布的變異系數(shù):
可以看到,對于任意給定的連邊概率p∈\in∈[0,1],當(dāng)網(wǎng)絡(luò)規(guī)模增大時,邊數(shù)分布也變得越來越窄,也就越能確信仿真生成的模型中的邊數(shù)越接近均值< M >=pN(N-1)/2。
隨機圖的稀疏性:如果連邊概率p與1/N同階,即p=O(1/N),那么有:
這意味著當(dāng)網(wǎng)絡(luò)規(guī)模充分大時所得到的ER隨機圖為稀疏網(wǎng)絡(luò)。
2.2 度分布
網(wǎng)絡(luò)中任意給定節(jié)點恰好與其它k個節(jié)點有邊相連的概率為pk^kk(1-p) N?1?k^{N-1-k}N?1?k,由于共有(N?1k)\binom{N-1}k(kN?1?)種選取這k個其它節(jié)點的方式,因此網(wǎng)絡(luò)中任一給定節(jié)點的度為k的概率同樣服從二項分布:
度分布的均值:
這一結(jié)果也是自然的:網(wǎng)絡(luò)中任一節(jié)點與其它N-1個節(jié)點中的每個節(jié)點有邊相連的概率都為p。
度分布的方差:
度分布的變異系數(shù):
同樣可以看到,對于任意給定的連邊概率p∈\in∈[0,1],當(dāng)網(wǎng)絡(luò)規(guī)模增大時,度分布也變得越來越窄,也就能確信仿真生成的模型中各節(jié)點的度越接近均值< k >=p(N-1)。
泊松分布:當(dāng)N很大且p很小時,有
從而有:
于是二項分布可近似為泊松分布,即有
在固定平均度< k >的情形,當(dāng)N很大時,p=< k >/(N-1)變得非常小。因此,ER隨機圖也稱為泊松隨機圖。
2.3 聚類系數(shù)與平均路徑長度
網(wǎng)絡(luò)中任一節(jié)點的聚類系數(shù)定義為該節(jié)點的任意兩個鄰居節(jié)點之間有邊相連的概率。對于ER隨機圖G(N,p)而言,兩個節(jié)點之間不論是否具有共同的鄰居節(jié)點,其連接概率均為p。因此,ER隨機圖的聚類系數(shù)為
直觀上,由于ER隨機圖的聚類系數(shù)很小,意味著網(wǎng)絡(luò)中的三角形數(shù)量相對很少。對于ER隨機圖中隨機選取的一個點,網(wǎng)絡(luò)中大約有< k >個其他的點與該點之間的距離為1;大約有< k >2^22個其他節(jié)點與該節(jié)點之間的距離為2;以此類推,由于網(wǎng)絡(luò)總的節(jié)點數(shù)為N,設(shè)DER_{ER}ER?是ER隨機圖的直徑,大體上應(yīng)該有N~\sim~< k >DER^{D_{ER}}DER?。因此,網(wǎng)絡(luò)的直徑和平均路徑長度滿足
這種平均路徑長度為網(wǎng)絡(luò)規(guī)模的對數(shù)增長函數(shù)的特性就是典型的小世界特征。因為lnN值隨N增長得很慢,這就使得即使是規(guī)模很大得網(wǎng)絡(luò)也可以具有很小得平均路徑長度和直徑。
3、巨片的涌現(xiàn)與相變
3.1 隨機圖的演化
ER隨機圖的連通性具有兩個極端情形:
(1)p=0對應(yīng)于N個孤立節(jié)點:最大連通片只包含一個節(jié)點,與網(wǎng)絡(luò)規(guī)模N無關(guān)。
(2)p=1對應(yīng)于全耦合網(wǎng)絡(luò):最大連通片規(guī)模為N,隨著網(wǎng)絡(luò)規(guī)模的增長而增長。一般而言,如果網(wǎng)絡(luò)中的一個連通片的規(guī)模隨著網(wǎng)絡(luò)規(guī)模的增長而成比例增長,那么該連通片就是一個巨片,因為當(dāng)網(wǎng)絡(luò)規(guī)模充分大時,這個巨片會包含網(wǎng)絡(luò)中相當(dāng)比例的節(jié)點。
直觀上看,隨著連邊概率p的增加,生成的隨機圖中的邊數(shù)也在增加,網(wǎng)絡(luò)的連通性也越來越好。現(xiàn)在的問題是當(dāng)連接概率p從0開始逐漸增加到1時,最大連通片的規(guī)模是如何具體變化的呢?特別的,當(dāng)p多大時才會出現(xiàn)包含網(wǎng)絡(luò)中一定比例節(jié)點的巨片。
3.2 巨片的涌現(xiàn)
前人們系統(tǒng)地研究了當(dāng)N->∞\infty∞時ER隨機圖的性質(zhì)(包括巨片的出現(xiàn))與概率p之間的關(guān)系。特別的,他們發(fā)現(xiàn)ER隨機圖具有如下的涌現(xiàn)或相變性質(zhì):ER隨機圖的許多重要性質(zhì)都是突然涌現(xiàn)的:對于任一給定的連邊概率p,要么幾乎每一個G(N,p)的實例都具有某個性質(zhì)Q。要么幾乎每一個這樣的圖都不具有性質(zhì)Q。
這里,如果當(dāng)N->∞\infty∞時產(chǎn)生一個具有性質(zhì)Q的ER隨機圖的概率為1,那么就稱幾乎每一個ER隨機圖都具有性質(zhì)Q。
當(dāng)N->∞\infty∞時ER隨機圖的巨片的相對規(guī)模S∈\in∈[0,1]定義為巨片中所包含的節(jié)點數(shù)占整個網(wǎng)絡(luò)節(jié)點的比例,即一個隨機選擇的節(jié)點不屬于巨片的概率。u=1-S為不屬于巨片的節(jié)點所占的比例。顯然,存在如下兩種可能:
(1)網(wǎng)絡(luò)中不存在巨片,即S=0,u=1;
(2)網(wǎng)絡(luò)中存在巨片,即S>0,u<1。
網(wǎng)絡(luò)中一個隨機選擇的節(jié)點i如果不屬于巨片,那么就說明它也沒有通過q其他任一節(jié)點與巨片相連,也即對于網(wǎng)絡(luò)中的其他任一節(jié)點j,必然有如下兩種情形之一:
(1)節(jié)點i與節(jié)點j之間沒有邊相連:此情形發(fā)生的概率為1-p。
(2)節(jié)點i與節(jié)點j之間有邊相連,但是節(jié)點j不屬于巨片:此情形發(fā)生的概率為pu。
因此,節(jié)點i沒有通過任一節(jié)點與巨片相連的概率為:
對上式兩邊取對數(shù),有
從而
于是可以得到巨片中節(jié)點的比例S=1-u滿足
上式盡管看上去簡單,卻不存在簡單的解析解。
上圖繪制了平均度< k >取0.5、1、1.5上式三種情形的曲線。圖中的虛線是y=S,當(dāng)< k >小于1時只有一個交點,當(dāng)< k >大于1時還有另外一個交點。基于以下交點,可以得到網(wǎng)路平均度和巨片規(guī)模的關(guān)系如上圖中的(b)所示。
可以看到,在< k >小于1時,S=0意味著不存在巨片;在< k >大于1時,S>0意味著涌現(xiàn)巨片。臨近點< k >c_cc?=1也可通過下式得到:
由于ER隨即圖的平均度是< k >=p(N-1)≈\approx≈ pN,從而產(chǎn)生巨片的連邊概率p的臨界值為
即當(dāng)p>pc_cc?時,幾乎每一個隨機圖都包含巨片。
4、隨機圖與實際網(wǎng)絡(luò)的比較
4.1 共性特征
ER隨機圖與許多實際網(wǎng)絡(luò)相比具有如下一些共性特征:
(1)稀疏性。實際網(wǎng)絡(luò)往往是稀疏的,而當(dāng)連邊概率p與網(wǎng)絡(luò)規(guī)模的倒數(shù)同階(p~\sim~ O(1/N))時,ER隨機圖是一個邊數(shù)與網(wǎng)絡(luò)規(guī)模同階的稀疏圖,M~\sim~ 0(N)。
(2)有巨片。實際網(wǎng)絡(luò)往往存在巨片,當(dāng)p>pc~_c\simc?~ 1/N時,ER隨機圖具有一個包含網(wǎng)絡(luò)中相當(dāng)比例節(jié)點的巨片。
(3)小世界。ER隨機圖的平均距離大體上是網(wǎng)絡(luò)規(guī)模的對數(shù)函數(shù),L~\sim~InN/ln< k >,而實際網(wǎng)絡(luò)往往也具有與相同規(guī)模和密度的ER隨機圖相近的平均距離。
4.2 不同特征
但是,ER隨機圖也具有一些與實際網(wǎng)絡(luò)顯著不同的特征。
(1)聚類特性的差異。對于固定的網(wǎng)絡(luò)密度,當(dāng)N→∞時,ER隨機圖的聚類系數(shù)CER_{ER}ER?=< k >/(N-1)->0,意味著ER隨機圖沒有聚類特性。例如,假設(shè)全世界70億人組成的社會網(wǎng)絡(luò)近似具有ER隨機圖結(jié)構(gòu),那么即使平均每人有1000個朋友,網(wǎng)絡(luò)的聚類系數(shù)也會非常小(C≈\approx≈ 10?7^{-7}?7)。實際網(wǎng)絡(luò)卻往往具有明顯的聚類特性,它們的聚類系數(shù)比相同規(guī)模的ER隨機圖的聚類系數(shù)高得多。
(2)度分布的差異。ER隨機圖的度分布近似服從均勻的泊松分布,意味著網(wǎng)絡(luò)中節(jié)點的度基本都集中在平均度< k >附近。另一方面,實際網(wǎng)絡(luò)的度分布往往具有較為明顯的非均勻特征:網(wǎng)絡(luò)中會存在少量度相對很大的節(jié)點,從而意昧著網(wǎng)絡(luò)度分布與均勻的泊松分布有顯著偏離。
三、廣義隨機圖
1、配置模型
人們可以從多個角度對ER隨機圖進行擴展以使其更接近實際網(wǎng)絡(luò)。其中一個自然的推廣就是具有任一給定度分布、但在其它方面完全隨機的的廣義隨機圖。到目前為止研究最多的廣義隨機圖模型是配置模型。在配置模型中事先給定的是網(wǎng)絡(luò)的度序列{d1_11?,d2_22?,,,dN_NN?},其中非負(fù)整數(shù)di_ii?為節(jié)點i的度。顯然,度序列并不能完全任一給定,否則有可能無法生成符合度序列的簡單圖。兩個顯而易見的必要條件是:
(1)由于網(wǎng)絡(luò)中所有節(jié)點的度值之和等于網(wǎng)絡(luò)中所有邊數(shù)的度值之和的兩倍,∑i=1N\sum_{i=1}^N∑i=1N?di_ii?必須為偶數(shù)并且有:
(2)di_ii?<=N-1,i=1,2,,,N,等號只有當(dāng)一個節(jié)點與其它所有的節(jié)點都相連時才能成立。
在上述條件的基礎(chǔ)上少許加以推廣,就可得到如下的充要條件:
**定理:**一個非負(fù)整數(shù)序列{d1_11?,d2_22?,,,dN_NN?}是某個簡單圖的度序列的充要條件為:
(1)∑i=1N\sum_{i=1}^N∑i=1N?di_ii?為偶數(shù)。
(2)對于每個整數(shù)k,1<=k<=N,均有
例如,驗證整數(shù)序列{6,6,5,4,4,2,1}是否為某個簡單圖的度序列如下:
所以,上述整數(shù)序列不可能為某個簡單圖的度序列。
另一種給定度序列的等價方法是給定網(wǎng)絡(luò)中度為k的節(jié)點數(shù)目。n(k),k=0,1,2,,,kmax_{max}max?。網(wǎng)絡(luò)的節(jié)點數(shù)N和邊數(shù)M滿足
生成具有給定度序列的廣義隨即圖的配置模型算法如下:
(1)初始化:根據(jù)給定度序列確定N個節(jié)點的度值。
(2)引出線頭:從度為ki_ii?的節(jié)點i引出ki_ii?。共有∑i=1N\sum_{i=1}^N∑i=1N?ki_ii?=2M個線頭,M為網(wǎng)絡(luò)的邊數(shù)。
(3)隨機配對:完全隨機的選取一對線頭,把他們連在一起,形成一條邊;再在剩余的線頭中完全隨機地選取另一對線頭連成一條邊;以此進行下去,直至用完所有的線頭。
關(guān)于配置模型算法的幾點說明:
(1)度序列應(yīng)滿足的條件。由于任一無向網(wǎng)絡(luò)中所有節(jié)點的度之和∑i\sum_i∑i?ki_ii?必然為偶數(shù),因此,給定的度序列也必須滿足這一條件。
(2)生成具有給定度分布的網(wǎng)絡(luò)。我們可以首先基于該度分布生成一組度序列,然后再利用上述配置模型算法。
(3)等概率隨機配對。配置模型算法中的任意兩個線頭之間相連的可能性都是一樣的。正是基于這一特性,我們可以從理論上分析配置模型的一些性質(zhì)。
(4)生成模型的不唯一性。由于配置模型算法中的隨機配對,對于給定的度序列,重復(fù)兩次實驗得到的具有相同度序列的模型在其他方面可能有很大區(qū)別。事實上,2M個線頭兩兩配對組成M條邊,共有M(2M -1)種可能的配置方案,采用上述生成算法得到其中每一種配置方案的可能性都是一樣的。當(dāng)然,不同的配置方案并不一定對應(yīng)于不同的網(wǎng)絡(luò)。例如,下圖中所示的包含3個節(jié)點的配置方案都是相同的。其中,每個節(jié)點旁邊的兩個字母對應(yīng)于從該節(jié)點引出的兩個線頭。
(5)有可能產(chǎn)生自環(huán)和重邊。我們當(dāng)然可以在算法中的配對步驟不允許自環(huán)和重邊,但是這樣的話,線頭之間的配對就不在是完全隨機的了,從而使得難以對該模型做理論分析。
2、配置模型的理論分析
2.1 余平均度
配置模型的一個好處是可以基于該模型從理論上研究一些問題。我們知道,平均度為:
節(jié)點的余平均度為:
一個給定網(wǎng)絡(luò)的余平均度定義為網(wǎng)絡(luò)中每個節(jié)點的余平均度的平均值:
它反映了網(wǎng)絡(luò)中隨機選取的一個節(jié)點的鄰居節(jié)點的平均度。
實際網(wǎng)絡(luò)中節(jié)點的鄰居節(jié)點的平均度往往大于網(wǎng)絡(luò)節(jié)點的平均度。
2.2 余度分布
我們知道,網(wǎng)絡(luò)中節(jié)點的平均度與度分布之間具有如下關(guān)系:
類似的,余平均度也可以通過余度分布來計算
其中,余度分布Pn_nn?(k)≡\equiv≡qk_kk?定義為網(wǎng)絡(luò)中隨機選取的一個節(jié)點的隨機選取的一個鄰居節(jié)點的度為k的概率。
現(xiàn)在我們計算配置模型的余度分布。要從一個隨機選擇的節(jié)點及另一個線頭產(chǎn)生一條邊,我們是從其它2M-1個線頭中完全隨機地任選一個,然后把這兩個線頭連在一起形成一條邊。由于每個度為k的節(jié)點都有k個線頭,因此從一個給定節(jié)點沿著一條邊到達一個鄰居節(jié)點的度為k的概率為k/(2M-1)≈\approx≈k/2M。而網(wǎng)絡(luò)中度為k的節(jié)點總數(shù)為Npk_kk?,因此一個隨機選擇的節(jié)點與網(wǎng)絡(luò)中任一度為k的節(jié)點有邊相連的概率為:
其中利用了2M=N< K >。
上式意味著在給定網(wǎng)絡(luò)平均度的情形下,從網(wǎng)絡(luò)中一個隨機選擇的節(jié)點出發(fā),沿著一條邊到達一個度為k的鄰居節(jié)點的概率與kpk_kk?而不是與pk_kk?成正比。也就是說,到達的可能是比一個典型節(jié)點的度更高的節(jié)點。
基于上式,配置模型中隨機選取的一個節(jié)點的鄰居節(jié)點的平均度為:
這一結(jié)論與對于度不相關(guān)網(wǎng)絡(luò)的到的結(jié)論是一致的,于是有:
其中,網(wǎng)絡(luò)度分布的方差σ2\sigma^2σ2總是非負(fù)的。事實上,除非網(wǎng)絡(luò)中的每個節(jié)點都有相同的度,否則方差σ2\sigma^2σ2是嚴(yán)格為正的,此時平均度< k >當(dāng)然也大于0。因而有
盡管此式子是基于配置模型推導(dǎo)出來的,但是這一結(jié)論在許多實際網(wǎng)絡(luò)任然是成立的。
四、隨機模型與零模型
1、零模型
我們把一個實際網(wǎng)絡(luò)具有相同的節(jié)點數(shù)和相同的某些性質(zhì)A的隨機網(wǎng)絡(luò)稱為該隨機網(wǎng)絡(luò)的隨機化網(wǎng)絡(luò)。這里的某些性質(zhì)A可以是平均度、度分布、聚類系數(shù)、同配系數(shù)等,或者是他們的某種組合。從統(tǒng)計學(xué)角度看,“具有性質(zhì)A的網(wǎng)絡(luò)G也具有某一性質(zhì)P”是一個零假設(shè),而為了要驗證這一零假設(shè)是否成立,就需要有與原網(wǎng)絡(luò)G具有相同規(guī)模和相同性質(zhì)A的隨機化網(wǎng)絡(luò)作為參考系,以判別性質(zhì)P是否為這類隨機化網(wǎng)絡(luò)的典型特征。這類隨機化網(wǎng)絡(luò)模型在統(tǒng)計學(xué)上稱為零模型。
ER隨即圖可以視為階數(shù)最低的零模型。有時我們需要具有更多約束條件的零模型:
(1)0階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點數(shù)和邊數(shù)的隨機化網(wǎng)絡(luò)。
(2)1階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點數(shù)和度分布的隨機化網(wǎng)絡(luò)。通常的做法是每個節(jié)點的度值都保持不變。
(3)2階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點數(shù)和二階度相關(guān)特性(即聯(lián)合分布)的隨機化網(wǎng)絡(luò)。有時也考慮與原網(wǎng)絡(luò)具有相同同配系數(shù)的隨機化網(wǎng)絡(luò)。
(4)3階零模型:與原網(wǎng)絡(luò)具有相同節(jié)點數(shù)和三階度相關(guān)特性(即聯(lián)合邊度分布)的隨機化網(wǎng)絡(luò)。
如圖所示,3個節(jié)點構(gòu)成的三元組有如下兩種情況,因此3階度相關(guān)特性P(k1_11?,k2_22?,k3_33?)是由PΛ_\LambdaΛ?(k1_11?,k2_22?,k3_33?)與PΔ_\DeltaΔ?(k1_11?,k2_22?,k3_33?)共同組成的。
以此類推,我們還可以定義更高階的零模型。
上圖是一個簡單網(wǎng)絡(luò)及其0到3階度相關(guān)性質(zhì)。該網(wǎng)絡(luò)拓?fù)淇捎善?階度相關(guān)性質(zhì)完全表征。
顯然,對于一個給定網(wǎng)絡(luò)G和任意自然數(shù)d1_11?<d2_22?,具有與網(wǎng)絡(luò)G相同的d2_22?階分布的模型集合一定是與網(wǎng)絡(luò)G具有相同的d1_11?階分布的模型集合的子集,而網(wǎng)絡(luò)G的d階零模型的性質(zhì)就取為與網(wǎng)絡(luò)G具有相同的d階分布的模型集合性質(zhì)的平均。隨著d的增大,d階零模型將越來越接近給定網(wǎng)絡(luò)G。如下圖所示:
2、隨機重連
假設(shè)我們已經(jīng)有了某個實際網(wǎng)絡(luò)的拓?fù)鋽?shù)據(jù),其中包含節(jié)點之間是如何連接的完全信息(當(dāng)然也就包含了度序列的信息)。如果要生成一個與這個網(wǎng)絡(luò)具有相同度序列的隨機網(wǎng)絡(luò)模型,要怎么做?
如果嚴(yán)格要求不允許重邊或自環(huán),那么就不能用配置模型算法。因為有限制條件,這個網(wǎng)絡(luò)的形成也不是完全隨機的。這是,就可以在原始網(wǎng)絡(luò)的基礎(chǔ)上,保持每個節(jié)點的度不變,但是使得連邊的位置盡可能的隨機化,以得到一個具有給定度序列的隨機網(wǎng)絡(luò),此過程所用的算法就是隨機重連算法。
(1)生成0階零模型的隨機重連算法。每次隨機取出原網(wǎng)絡(luò)中的一條邊k1_11?k2_22?,再隨機選擇網(wǎng)絡(luò)中兩個不相鄰的節(jié)點k3_33?和k4_44?,并在他們之間添加一條連邊k3_33?k4_44?。重復(fù)此過程充分多次。
(2)生成1階零模型的隨機重連算法。每次隨機選擇原網(wǎng)絡(luò)中的兩條邊,記為k1_11?k2_22?和k3_33?k4_44?如果k1_11?、k2_22?、k3_33?、k4_44?這四個節(jié)點之間只有這兩條邊,那么就去除這兩條邊,并將節(jié)點k1_11?和k4_44?相連,k2_22?和k3_33?相連。從而得到兩條新邊k1_11?k4_44?和k2_22?k3_33?。注意到這4個節(jié)點的度值均保持不變,故網(wǎng)絡(luò)的度序列仍保持不變。重復(fù)此過程充分多次。
(3)生成2階零模型的隨機重連算法。對應(yīng)于保持聯(lián)合度分布不變,每一步采取與1階零模型相同的步驟,只是多了一個限制,即要求節(jié)點k2_22?與k4_44?具有相同的度值。顯然,由于這一限制,使得重連得可能性也小了。重復(fù)此過程充分多次。
隨著零模型階次的增加,約束條件進一步加強,重連的可能性會不斷減小,生成網(wǎng)絡(luò)的隨機化程度也逐漸降低。
上述隨機重連算法也可以推廣到有向圖。
五、基于零模型的拓?fù)湫再|(zhì)分析
1、比較判斷
在前面介紹網(wǎng)絡(luò)的社團結(jié)構(gòu)分析時敘述過,基于模塊度的社團檢測算法的基本想法就是把待研究的網(wǎng)絡(luò)與具有相同度序列的一階零模型做比較,以判斷劃分的社團結(jié)構(gòu)是否最優(yōu)。一般而言,基于零模型研究網(wǎng)絡(luò)特征時需要明確兩點:
(1)確定零模型。根據(jù)所要研究的特征,確定合適的保持低階特征不變的零模型。例如要研究的是度相關(guān)性(屬于二階特征),那么就可以選擇保持度分布或度序列(一階特征)不變的一階零模型。
(2)確定比較方法。把實際網(wǎng)絡(luò)的特征與相應(yīng)的零模型做比較。具體的說,假設(shè)某種拓?fù)湫再|(zhì)在一個實際網(wǎng)絡(luò)中出現(xiàn)的次數(shù)為N(j),在相應(yīng)的隨機化網(wǎng)絡(luò)中出現(xiàn)次數(shù)的平均值為< N(j) >,那么可以計算如下比值:
如果R(j)>1(或R(j)<1),那么就意味著實際網(wǎng)絡(luò)的設(shè)計或者演化過程促進(或抑制)了該拓?fù)涮卣鞯某霈F(xiàn)。
如果要進一步刻畫某個拓?fù)淠J皆趯嶋H網(wǎng)絡(luò)中出現(xiàn)的頻率與相應(yīng)隨機化網(wǎng)絡(luò)中出現(xiàn)的頻率的差異是否顯著,那么可以采用統(tǒng)計學(xué)中的Z檢驗方法。具體的說,拓?fù)湫再|(zhì)j的統(tǒng)計重要性可用如下的Z值來刻畫:
其中,σr\sigma_rσr?(j)為隨機化網(wǎng)絡(luò)中拓?fù)湫再|(zhì)j的出現(xiàn)次數(shù)Nr_rr?(j)的標(biāo)準(zhǔn)差。Z值得絕對值越大就表示差異越顯著。
通常得做法是在平面上繪制出比值R和Z值的圖形,稱為相關(guān)性剖面。為了便于比較不同規(guī)模的網(wǎng)絡(luò),通常對Z值做歸一化處理,得到重要性剖面:
2、度相關(guān)性分析
網(wǎng)絡(luò)的聯(lián)合概率分布可以表示為:
其中m(k1_11?,k2_22?)是度為k2_22?的節(jié)點和度為k2_22?的節(jié)點之間的連邊數(shù)。如果k1_11?=k2_22?,那么μ\muμ(k1_11?,k2_22?)=1。
我們可以通過比較一個實際網(wǎng)絡(luò)的m(k1_11?,k2_22?)及其相應(yīng)的1階零模型所對應(yīng)的均值< m(k1_11?,k2_22?) >來分析實際網(wǎng)絡(luò)的度相關(guān)性。具體的說,可以計算并繪制如下的相關(guān)性剖面:
上圖顯示的是雙對數(shù)坐標(biāo)下的互聯(lián)網(wǎng)拓?fù)涞南嚓P(guān)性剖面,該圖反映了互聯(lián)網(wǎng)拓?fù)溲莼娜缦绿卣?#xff1a;
(1)小度(k1_11?<=3,k2_22?>=1)之間的的連邊受到很強的抑制,R值和Z值趨于最小。
(2)中度節(jié)點(k1_11?<100,k2_22?>=10)之間的連邊也受到抑制,R值和Z值都比較小。
(3)小度節(jié)點(1<=k1_11?<=3)與中度節(jié)點(10<=k2_22?<100)之間的連邊數(shù)量顯著增強,R值和Z值都趨于最大。
(4)度最大的5個節(jié)點(k1_11?,k2_22?>300)中的任意兩個節(jié)點之間都有一條邊。在典型的一階隨機化網(wǎng)絡(luò)中也具有這一特征,因此,R值接近1而Z值接近0。
3、模體分析
零模型的另一個典型應(yīng)用是網(wǎng)絡(luò)的模塊化分析,在實際網(wǎng)絡(luò)中,并非所有的子圖都具有相同的重要性。
實際網(wǎng)絡(luò)可能包含各種各樣的子圖,其中一些子圖所占的比例明顯高于相應(yīng)的零模型中這些子圖所占的比例,這些子圖稱為模體,辨識出模體有助于識別網(wǎng)絡(luò)的典型局部連接模式。
為了判斷實際網(wǎng)絡(luò)中的一個子圖j是否為模體,可以比較該子圖在實際網(wǎng)絡(luò)中出現(xiàn)的次數(shù)N(j)與在相應(yīng)的隨機化網(wǎng)絡(luò)中出現(xiàn)次數(shù)的平均值< Nr_rr?(j) >,一般要求
此外,在具體操作時可進一步要求:
(1)該子圖在與該實際網(wǎng)絡(luò)對應(yīng)的隨機化網(wǎng)絡(luò)中出現(xiàn)的次數(shù)大于它在實際網(wǎng)絡(luò)中出現(xiàn)次數(shù)的概率是很小的,通常要求這個概率小于某個閾值P;
(2)該子圖在實際網(wǎng)絡(luò)中出現(xiàn)的次數(shù)N(j)不小于某個下限U。
網(wǎng)絡(luò)中每個子圖j的統(tǒng)計重要性可通過重要性剖面來刻畫。上圖給出了取自不同領(lǐng)域的19個有向網(wǎng)絡(luò)中包含的所有可能的13個三元組要性剖面(TSP),它們反映了這13個三元組在網(wǎng)絡(luò)中的相對重要性。這樣就可以根據(jù)TSP對網(wǎng)絡(luò)進行分類,具有相似TSP的網(wǎng)絡(luò)組成一個網(wǎng)絡(luò)超家族。從上圖可以清楚地看出,19個不同領(lǐng)域的實際網(wǎng)絡(luò)組成了4個網(wǎng)絡(luò)超家族。
4、同配性質(zhì)分析
前面基于零模型我們分析了無向網(wǎng)絡(luò)的度相關(guān)性,現(xiàn)在再進一步基于零模型分析有向網(wǎng)絡(luò)的度相關(guān)性。
前面的文章中講過,無向網(wǎng)絡(luò)的度同配性質(zhì)反映了度值相近的節(jié)點之間互相連接的傾向性,它可以用如下的同配系數(shù)來表征:
r>0對應(yīng)于同配,r<0對應(yīng)于異配。一般而言,同配系數(shù)的大小是與網(wǎng)絡(luò)規(guī)模和密度相關(guān)的。因此,一種更為合理的評價是把一個實際網(wǎng)絡(luò)的同配系數(shù)與相應(yīng)的零模型的同配系數(shù)做比較以判斷網(wǎng)絡(luò)的同配或異配程度。
在有向網(wǎng)絡(luò)情形,邊的方向有可能對網(wǎng)絡(luò)的同配性質(zhì)產(chǎn)生重要影響。一個有向網(wǎng)絡(luò)的同配性可以有如下4種度量:r(out,in),r(in,out),r(out,out)和r(in,in)。其中,r(out,in)量化的是高出度的節(jié)點有邊指向高入度的節(jié)點的傾向性程度,其余三種的定義類似。上圖為有向網(wǎng)絡(luò)的4種度相關(guān)性。
我們用α,β∈\alpha,\beta\inα,β∈[in,out]標(biāo)記出度或者入度類型,并把有向邊i的源節(jié)點和目標(biāo)節(jié)點的α\alphaα度和β\betaβ度分別記為jiα^\alpha_iiα?和kiβ^\beta_iiβ?。有向網(wǎng)絡(luò)的一組同配系數(shù)可以用如下的Pearson相關(guān)系數(shù)刻畫:
M為網(wǎng)絡(luò)邊數(shù),<*>是平均值。這里規(guī)定每種情形下,邊都是從α\alphaα標(biāo)度的節(jié)點指向β\betaβ標(biāo)度的節(jié)點。
每個相關(guān)性r(α\alphaα,β\betaβ)的統(tǒng)計重要性可通過Z值來刻畫:
其中< rr_rr?(α\alphaα,β\betaβ)>和σr\sigma_rσr?(α\alphaα,β\betaβ)分別為一階零模型的同配系數(shù)的均值和標(biāo)準(zhǔn)差。通常網(wǎng)絡(luò)規(guī)模越大Z值也越大,但我們可以對Z值作歸一化處理以消除網(wǎng)絡(luò)規(guī)模的影響,得到如下定義的同配重要性剖面(ASP):
ASP(α\alphaα,β\betaβ)>0表明實際網(wǎng)絡(luò)比具有相同度序列的零模型更為同配,此時稱網(wǎng)絡(luò)是Z同配的;ASP(α\alphaα,β\betaβ)<0則表明實際網(wǎng)絡(luò)比相應(yīng)的零模型更為異配,此時稱網(wǎng)絡(luò)是Z異配的。
總結(jié)
- 上一篇: 节点相似性与链路预测
- 下一篇: 无标度网络模型