日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

社交网络与社会计算课程内容梳理总结

發(fā)布時(shí)間:2024/8/1 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 社交网络与社会计算课程内容梳理总结 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

    • 1 引言
    • 2 復(fù)雜網(wǎng)絡(luò)的圖要素
    • 3 復(fù)雜網(wǎng)絡(luò)度量
    • 4 復(fù)雜網(wǎng)絡(luò)模型
    • 5 網(wǎng)絡(luò)表示學(xué)習(xí)
    • 6 主題模型

1 引言

社會(huì)計(jì)算是指社會(huì)科學(xué)和計(jì)算技術(shù)交叉融合而成的一個(gè)研究領(lǐng)域,研究如何利用計(jì)算系統(tǒng)幫助人們進(jìn)行溝通與協(xié)作,研究如何利用計(jì)算技術(shù)分析社會(huì)運(yùn)行的規(guī)律與發(fā)展趨勢,即以社交網(wǎng)絡(luò)和社會(huì)媒體為研究對象,從中發(fā)現(xiàn)社會(huì)關(guān)系、社會(huì)行為的規(guī)律。

社會(huì)計(jì)算的研究內(nèi)容包括:

  • 社交網(wǎng)絡(luò)服務(wù),包括:社會(huì)關(guān)系強(qiáng)度、信息的絕對價(jià)值和相對價(jià)值、新鮮事排序算法、隱私性以及社會(huì)化搜索;
  • 內(nèi)容計(jì)算,包括:輿情分析、人際關(guān)系挖掘、微博應(yīng)用;
  • 群體智慧,比如百度百科和維基百科。
  • 社會(huì)計(jì)算的研究理論工具:

  • 從數(shù)學(xué)和社會(huì)心理學(xué)等其他學(xué)科借鑒來的理論,比如圖論、平衡論、社會(huì)比較理論、六度分割理論、150定律;
  • 本源的社會(huì)網(wǎng)絡(luò)理論,比如異質(zhì)性理論、結(jié)構(gòu)角色理論;
  • 網(wǎng)絡(luò)時(shí)代大數(shù)據(jù)的研究方法
  • 社會(huì)媒體是指互聯(lián)網(wǎng)上基于用戶關(guān)系的內(nèi)容生產(chǎn)與交換平臺,其特點(diǎn)有:1)多對多;2)豐富的用戶交互特性。

    社會(huì)媒體數(shù)據(jù)通常用圖或者矩陣的形式進(jìn)行表示?,F(xiàn)實(shí)世界中的大規(guī)模網(wǎng)絡(luò)往往具有一些共同的性質(zhì):無標(biāo)度分布、小世界效應(yīng)、強(qiáng)社區(qū)結(jié)構(gòu)。

    社會(huì)媒體挖掘的意義:

  • 社會(huì)媒體挖掘研究將是推動(dòng)社會(huì)學(xué)與信息科學(xué)交叉發(fā)展的著力點(diǎn);
  • 社會(huì)媒體數(shù)據(jù)研究已經(jīng)成為提高國家信息產(chǎn)業(yè)科學(xué)化水平和輿情態(tài)勢感知能力的支撐點(diǎn);
  • 社會(huì)媒體挖掘是引領(lǐng)新型互聯(lián)網(wǎng)經(jīng)濟(jì)發(fā)展的制高點(diǎn)。
  • 社會(huì)媒體挖掘的挑戰(zhàn):

  • 可擴(kuò)展性;
  • 混雜性;
  • 演化;
  • 集體智慧
  • 本課程關(guān)注的社會(huì)計(jì)算任務(wù):

  • 社區(qū)發(fā)現(xiàn)與演化分析,包括1)如何發(fā)現(xiàn)社區(qū)?2)社區(qū)結(jié)構(gòu)時(shí)如何演化的?3)怎樣評價(jià)發(fā)現(xiàn)的社區(qū);
  • 信息傳播與影響建模,包括1)如何建模社會(huì)媒體上的信息擴(kuò)散?如何挖掘社會(huì)媒體上的關(guān)鍵節(jié)點(diǎn)?3)用戶間是如何相互影響的?4)如何求解影響最大化問題?5)如何對網(wǎng)絡(luò)傳播進(jìn)行追蹤溯源?6)如何預(yù)測信息熱度?
  • 興趣發(fā)現(xiàn)與推薦系統(tǒng),包括1)經(jīng)典的推薦算法有哪些?2)基于社會(huì)媒體的推薦系統(tǒng)如何構(gòu)建?3)如何評價(jià)推薦系統(tǒng)的性能?
  • 話題發(fā)現(xiàn)與演化追蹤,包括1)話題發(fā)現(xiàn)的模型和算法有哪些?2)話題演化的模型和算法有哪些?3)如何應(yīng)對大規(guī)模、動(dòng)態(tài)、多源數(shù)據(jù)的挑戰(zhàn)?
  • 鏈接預(yù)測與網(wǎng)絡(luò)推斷,包括1)鏈接預(yù)測的基本方法有哪些?2)異質(zhì)社會(huì)媒體上連接預(yù)測如何實(shí)現(xiàn)?3)網(wǎng)絡(luò)推斷的效果如何評價(jià)?
  • 行為分析與建模預(yù)測,包括:如何刻畫用戶的采納和忠誠程度?2)如何建模用戶個(gè)體的使用行為?3)如何建模用戶群體的互動(dòng)行為?
  • 社會(huì)媒體的情感分析、任務(wù)分析、安全、可視化,等等。
  • 2 復(fù)雜網(wǎng)絡(luò)的圖要素

    復(fù)雜網(wǎng)絡(luò)是指那些結(jié)構(gòu)復(fù)雜、無規(guī)則、隨時(shí)間動(dòng)態(tài)變化的網(wǎng)絡(luò)。

    哥尼斯堡七橋問題:只有當(dāng)圖中度為奇數(shù)的頂點(diǎn)不超過兩個(gè),這樣的路徑才存在。

    圖的基礎(chǔ)知識:

  • 節(jié)點(diǎn)與邊;
  • 有向邊與有向圖;
  • 鄰居;
  • 度和度的分布
  • 圖的表示:

  • 鄰接矩陣;
  • 鄰接表;
  • 邊列表
  • 圖的類型:

  • 零圖和空圖;
  • 有向圖、無向圖、混合圖;
  • 簡單圖與多重圖;
  • 帶權(quán)圖;
  • 標(biāo)號圖
  • 通路是指依次遍歷相鄰邊產(chǎn)生的邊序列,分為開通路閉通路。通路可以用邊序列或者節(jié)點(diǎn)序列表示。通路的長度是指經(jīng)過的邊的數(shù)量。邊不重復(fù)的通路稱為簡單通路,閉合的簡單通路稱為環(huán)路。節(jié)點(diǎn)和邊都不重復(fù)的通路稱為路徑,閉合的路徑稱為回路。歐拉環(huán)路是指圖中所有邊均只被遍歷一次的環(huán)路,哈密爾頓回路是指遍歷了圖中所有節(jié)點(diǎn)的回路。如下圖所示:

    圖的連通性:如果節(jié)點(diǎn)viv_ivi?和節(jié)點(diǎn)vjv_jvj?之間有路徑連接,那么稱節(jié)點(diǎn)viv_ivi?可連接到節(jié)點(diǎn)vjv_jvj?,即可達(dá)。無向圖的可達(dá)性對稱,有向圖的可達(dá)性不一定對稱。任意節(jié)點(diǎn)相互可達(dá)的有向圖稱為強(qiáng)聯(lián)通有向圖,不考慮相互約束,稱為弱連通有向圖。同理可以基于子圖和連通性定義連通分支、強(qiáng)連通分支弱連通分支。

    最短路徑可以使用Dijstra算法和Prim算法進(jìn)行求解。

    圖的直徑是指任意兩個(gè)節(jié)點(diǎn)之間距離中的最大值。圖的平均距離是指圖中所有節(jié)點(diǎn)對的距離的平均值。

    特殊圖包括:樹、森林、生成樹、完全圖、平面圖、二分圖、正則圖

    圖算法:最大流算法、Prim算法、Dijstra算法。

    3 復(fù)雜網(wǎng)絡(luò)度量

    度中心性認(rèn)為具有更多鏈接關(guān)系的節(jié)點(diǎn)具有更高的中心性,我們可以使用最大可能度數(shù)(n-1)、最大度數(shù)、度數(shù)和對度中心性進(jìn)行歸一化。

    特征向量中心性是度中心性的一種擴(kuò)展,其試圖通過結(jié)合無向圖中的鄰居節(jié)點(diǎn)的重要性來修正度中心性,計(jì)算如下:ce(vi)=1λ∑j=1nAj,ice(vj)c_{e}\left(v_{i}\right)=\frac{1}{\lambda} \sum_{j=1}^{n} A_{j, i} c_{e}\left(v_{j}\right)ce?(vi?)=λ1?j=1n?Aj,i?ce?(vj?)。

    Katz中心性修正了特征向量中心性的一個(gè)缺點(diǎn):沒有入邊的特征向量中心性為0,計(jì)算如下:CKatz(vi)=α∑j=1nAj,iCKatz(vj)+βC_{\mathrm{Katz}}\left(v_{i}\right)=\alpha \sum_{j=1}^{\mathrm{n}} A_{j, i} C_{\mathrm{Katz}}\left(v_{j}\right)+\betaCKatz?(vi?)=αj=1n?Aj,i?CKatz?(vj?)+β。

    PageRank中心性認(rèn)為并不是中心性用戶所關(guān)注的每一個(gè)人都是中心性用戶,解決方案是讓中心性除以節(jié)點(diǎn)的出度,這樣每個(gè)鄰居節(jié)點(diǎn)獲取源節(jié)點(diǎn)中心性的一部分。Cp(vi)=α∑j=1nAj,iCp(vj)djout+βC_{p}\left(v_{i}\right)=\alpha \sum_{j=1}^{n} A_{j, i} \frac{C_{p}\left(v_{j}\right)}{d_{j}^{\mathrm{out}}}+\betaCp?(vi?)=αj=1n?Aj,i?djout?Cp?(vj?)?+β

    介數(shù)中心性度量方法是考慮節(jié)點(diǎn)在連接其他節(jié)點(diǎn)時(shí)所表現(xiàn)出來的重要性,計(jì)算其他節(jié)點(diǎn)間最短路徑中有多少條要通過節(jié)點(diǎn)??,這個(gè)比重是多少,公式如下:Cb(vi)=∑s≠t≠viσst(vi)σstC_\left(v_{i}\right)=\sum_{s \neq t \neq v_{i}} \frac{\sigma_{s t}\left(v_{i}\right)}{\sigma_{s t}}Cb?(vi?)=s??=t??=vi??σst?σst?(vi?)?,歸一化的介數(shù)中心性:Cbnorm?(vi)=Cb(vi)2(n?12)C_^{\operatorname{norm}}\left(v_{i}\right)=\frac{C_\left(v_{i}\right)}{2 \left( \begin{array}{c}{n-1} \\ {2}\end{array}\right)}Cbnorm?(vi?)=2(n?12?)Cb?(vi?)?。

    緊密度中心性,在一個(gè)連通圖中,節(jié)點(diǎn)越接近中心,它越能快速地到達(dá)其他節(jié)點(diǎn),這些節(jié)點(diǎn)與其他節(jié)點(diǎn)之間平均路徑長度應(yīng)該較小,因此定義緊密度中心性,Cc(vi)=1l ̄viC_{c}\left(v_{i}\right)=\frac{1}{\overline{l}_{v_{i}}}Cc?(vi?)=lvi??1?,其中l ̄vi=1n?1∑vj≠vili,j\overline{l}_{v_{i}}=\frac{1}{n-1} \sum_{v_{j} \neq v_{i}} l_{i, j}lvi??=n?11?vj???=vi??li,j?

    群體中心性,上述所有的中心性度量方法都是針對單個(gè)節(jié)點(diǎn)而定義的,這里討論如何將度中心性、緊密度中心性、介數(shù)中心性的定義擴(kuò)展到一組節(jié)點(diǎn)組成的集合上。

    傳遞性,在社交網(wǎng)絡(luò)中,傳遞性就是我朋友的朋友就是我的朋友,傳遞性可以通過聚類系數(shù)或局部聚類系數(shù)進(jìn)行度量。C=(Number?of?Triangles?)×3Number?of?Connected?Triples?of?Nodes?C=\frac{(\text { Number of Triangles }) \times 3}{\text { Number of Connected Triples of Nodes }}C=?Number?of?Connected?Triples?of?Nodes?(?Number?of?Triangles?)×3?。

    相互性:相互性是簡化的傳遞性,它只考慮有向圖中長度為2的閉合循環(huán)。

    相似性分為結(jié)構(gòu)相似性和規(guī)則相似性,結(jié)構(gòu)相似性的度量方法有Jaccard 相似度:σJaccard(vi,vj)=∣N(vi)∩N(vj)∣∣N(vi)∪N(vj)∣\sigma_{J a c c a r d}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\left|N\left(v_{i}\right) \cup N\left(v_{j}\right)\right|}σJaccard?(vi?,vj?)=N(vi?)N(vj?)N(vi?)N(vj?)?和Cosine相似度σcosine?(vi,vj)=∣N(vi)∩N(vj)∣∣N(vi)∣∣N(vj)∣\sigma_{\text { cosine }}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\sqrt{\left|N\left(v_{i}\right)\right|\left|N\left(v_{j}\right)\right|}}σ?cosine??(vi?,vj?)=N(vi?)N(vj?)?N(vi?)N(vj?)?。在規(guī)則相似性里,我們并不注重個(gè)體間共有的鄰居節(jié)點(diǎn),而是關(guān)注鄰居節(jié)點(diǎn)自身的相似程度,通過比較鄰居節(jié)點(diǎn)的相似度來確定節(jié)點(diǎn)間的相似度,而不是通過共有的鄰居節(jié)點(diǎn)來確定。

    4 復(fù)雜網(wǎng)絡(luò)模型

    真實(shí)網(wǎng)絡(luò)的常見屬性包括:1)度分布——冪律分布2)聚類系數(shù)——普遍較高3)平均路徑長度——普遍較短。

    社會(huì)媒體中節(jié)點(diǎn)度通常是指一個(gè)人的朋友數(shù)量(無向圖中的度)或粉絲數(shù)量(關(guān)注網(wǎng)絡(luò)中的入度),這個(gè)度分布通常滿足冪律分布:ln?pk=?bln?k+ln?a\ln p_{k}=-b \ln k+\ln alnpk?=?blnk+lnapkp_kpk?表示節(jié)點(diǎn)度為?的節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)中所占的比例。

    符合冪律分布的網(wǎng)絡(luò)通常叫做無標(biāo)度網(wǎng)絡(luò)(Scale-Free networks)。

    圖論中,聚類系數(shù)是表示節(jié)點(diǎn)聚集程度的系數(shù)。

    全局集聚系數(shù)基于節(jié)點(diǎn)三元組,是所有三元組(包括開三元組和閉三元組)中閉三元組所占比例,圖中一個(gè)節(jié)點(diǎn)的局部集聚系數(shù)表示它的相鄰節(jié)點(diǎn)形成一個(gè)團(tuán)(完全圖)的緊密程度,Ci={kidi×(di?1)/2di>10di=0or?1C_{i}=\left\{\begin{array}{cc}{\frac{k_{i}}{d_{i} \times\left(d_{i}-1\right) / 2}} & {d_{i}>1} \\ {0} & {d_{i}=0 \text { or } 1}\end{array}\right.Ci?={di?×(di??1)/2ki??0?di?>1di?=0?or?1?,其中kik_iki?表示鄰居間的邊數(shù),did_idi?是鄰居數(shù)。整個(gè)網(wǎng)絡(luò)的平均聚類系數(shù)定義如下:C=∑i∈VCi∣V∣C=\frac{\sum_{i \in V} C_{i}}{|V|}C=ViV?Ci??。

    在真實(shí)網(wǎng)絡(luò)中,網(wǎng)絡(luò)中任意兩個(gè)用戶都可以經(jīng)過一條比較短的朋友關(guān)系鏈進(jìn)行關(guān)聯(lián),評論路徑長度定義為:lG=1n?(n?1)?∑i,jd(vi,vj)l_{G}=\frac{1}{n \cdot(n-1)} \cdot \sum_{i, j} d\left(v_{i}, v_{j}\right)lG?=n?(n?1)1??i,j?d(vi?,vj?)。

    隨機(jī)圖模型,節(jié)點(diǎn)之間的邊是隨機(jī)生成的,我們討討論兩種隨機(jī)圖模型,G(n,p)G(n, p)G(n,p),節(jié)點(diǎn)之間存在連邊的概率;G(n,m)G(n, m)G(n,m),m是生成邊的數(shù)量。

    小世界網(wǎng)絡(luò)模型是Watts和Strogatz在1998年提出的基于人類社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)生成模型,它通過調(diào)節(jié)一個(gè)重鏈參數(shù)?可以從正則網(wǎng)絡(luò)向隨機(jī)網(wǎng)絡(luò)過渡,該模型稱為WS小世界模型。正則網(wǎng)絡(luò)是指任何一個(gè)節(jié)點(diǎn)的近鄰數(shù)目都相同的網(wǎng)絡(luò)。

    優(yōu)先鏈接模型由Albert-László Barabási and Réka Albert在1999年提出,當(dāng)新的節(jié)點(diǎn)加入到網(wǎng)絡(luò)時(shí),它們更傾向于連接那些與網(wǎng)絡(luò)中較多節(jié)點(diǎn)相連的節(jié)點(diǎn)。

    5 網(wǎng)絡(luò)表示學(xué)習(xí)

    6 主題模型

    貝葉斯概率是貝葉斯網(wǎng)絡(luò)運(yùn)行的理論基礎(chǔ),其原理和應(yīng)用相對比較簡單。

    先驗(yàn)概率是指根據(jù)歷史的資料或主觀判斷所確定的各種事件發(fā)生的概率,該概率沒有經(jīng)過實(shí)驗(yàn)證實(shí),屬于檢驗(yàn)前的概率。

    后驗(yàn)概率一般是指通過貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗(yàn)概率修正后得到的更符合實(shí)際的概率。

    似然條件概率:當(dāng)條件確定時(shí),某事件發(fā)生的概率就是該事件的條件概率。

    貝葉斯公式P(Bi∣A)=P(Bi)P(A∣Bi)∑i=1nP(Bi)P(A∣Bi)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{i=1}^{n} P\left(B_{i}\right) P\left(A | B_{i}\right)}P(Bi?A)=i=1n?P(Bi?)P(ABi?)P(Bi?)P(ABi?)?。

    有向概率圖模型:貝葉斯網(wǎng)絡(luò)(BN)、隱馬爾科夫模型(HMM);
    無向概率圖模型:馬爾科夫隨機(jī)場(MRF)、條件隨機(jī)場(CRF);
    混合概率圖模型:鏈圖(CG)。

    貝葉斯網(wǎng)絡(luò):聯(lián)合分布P(X1,…,Xn)=∏iP(Xi∣Pa?(Xi))P\left(X_{1}, \ldots, X_{n}\right)=\prod_{i} P\left(X_{i} | \operatorname{Pa}\left(X_{i}\right)\right)P(X1?,,Xn?)=i?P(Xi?Pa(Xi?))。

    極大似然估計(jì)的步驟

  • 獨(dú)立同分布(IID)的數(shù)據(jù)X=(X1,X2,…,Xn)X=\left(X_{1}, X_{2}, \ldots, X_{n}\right)X=(X1?,X2?,,Xn?)
  • 概率密度函數(shù)為f(x∣θ),即∣Xi~f(x∣θ)f(x | \theta), 即\left|X_{i} \sim f(x | \theta)\right.f(xθ),Xi?f(xθ)
  • 定義似然函數(shù):L(θ∣X)=f(X∣θ)=∏i=1nf(Xi∣θ)L(\theta | \mathrm{X})=f(\mathrm{X} | \theta)=\prod_{i=1}^{n} f\left(X_{i} | \theta\right)L(θX)=f(Xθ)=i=1n?f(Xi?θ)
  • 對數(shù)似然函數(shù):l(θ∣X)=log?L(θ∣X)l(\theta | \mathrm{X})=\log L(\theta | \mathrm{X})l(θX)=logL(θX)
  • θ\thetaθ的極大似然估計(jì)為:θ^=arg?max?θL(θ∣X)\hat{\theta}=\arg \max _{\theta} L(\theta | \mathrm{X})θ^=argmaxθ?L(θX)=arg?max?θl(θ∣X)=\arg \max _{\theta} l(\theta | \mathrm{X})=argmaxθ?l(θX).
  • 極大似然估計(jì)存在以下問題:對于許多具體問題不能構(gòu)造似然函數(shù)解析表達(dá)式?(?|?);似然函數(shù)表達(dá)式過于復(fù)雜而導(dǎo)致難以求解最值。正是在這種情況下,人們提出了基于數(shù)值迭代的EM算法。

    EM算法主要用于非完全數(shù)據(jù)參數(shù)估計(jì),它通過假設(shè)隱變量的存在,可以大大簡化似然函數(shù)方程,以迭代的方式尋找使似然函數(shù)?(?|?)達(dá)到最大的參數(shù)。

    Markov Chain Mento Carlo采樣方法(簡稱MCMC方法)主要用于統(tǒng)計(jì)推理中的模擬抽樣,尤其在貝葉斯推理中有著非常廣泛的應(yīng)用。

    直觀上,主題就是一個(gè)概念、一個(gè)方面,它表現(xiàn)為一系列相關(guān)的詞語,數(shù)學(xué)上,主題就是詞匯表上詞語的條件概率分布。在自然語言處理中,主題(topic)可以看成是詞項(xiàng)空間(或詞典、詞匯表)上的概率分布。

    主題模型起源于隱性語義索引(Latent Semantic Indexing, LSI),隱性語義索引并不是概率模型,因此也算不上一個(gè)主題模型,但是其基本思想為主題模型的發(fā)展奠定了基礎(chǔ)。

    在LSI的基礎(chǔ)上,Hofmann提出了概率隱性語義索引(probabilistic Latent Semantic Indexing, pLSI),該模型被看成是一個(gè)真正意義上的主題模型。

    Blei等人提出的LDA(Latent Dirichlet Allocation)又在pLSI的基礎(chǔ)上進(jìn)行了擴(kuò)展得到一個(gè)更為完全的概率生成模型。

    主題模型的主要內(nèi)容包括:

  • 主題模型的輸入
  • 主題模型的基本假設(shè)
  • 主題模型的表示
  • 參數(shù)估計(jì)過程
  • 新樣本的推斷
  • 主題模型的主要輸入是文檔集合,由于交換性的假設(shè),文檔集合等價(jià)于詞項(xiàng)-文檔矩陣。主題模型的另一個(gè)輸入是主題個(gè)數(shù)?,通常,?的大小需要在模型訓(xùn)練前指定,而且存在一定的經(jīng)驗(yàn)性。

    主題模型中的一個(gè)重要假設(shè)是詞袋(bag of words)假設(shè),即一篇文檔內(nèi)的詞項(xiàng)可以交換次序而不影響模型的訓(xùn)練結(jié)果。

    主題模型的表示有兩種,分別是使用圖模型和生成過程。以LDA模型為例,下圖是使用圖模型的方法對LDA模型進(jìn)行表示:

    圖中方框表示其中的內(nèi)容進(jìn)行重復(fù),右下角是重復(fù)的次數(shù),灰色節(jié)點(diǎn)表示觀測值,空心節(jié)點(diǎn)表示隱含隨機(jī)變量或者參數(shù),箭頭代表依賴關(guān)系,?是?的超參數(shù),?是?×?的參數(shù)集合,每行代表某個(gè)主題中的詞項(xiàng)概率分布,?是主題個(gè)數(shù),?是詞項(xiàng)個(gè)數(shù);?表示每篇文檔的主題概率分布,共?個(gè),?為文檔個(gè)數(shù).?為單詞,?為?的主題標(biāo)號。

    我們也可以通過生成過程來對主題模型進(jìn)行描述,LDA模型是按照如下圖所示的方式生成一篇文檔,重復(fù)?次則生成整個(gè)語料:

    主題模型中,最重要的兩組參數(shù)分別是各文檔的主題概率分布和各主題下的詞項(xiàng)概率分布,參數(shù)估計(jì)可以看成是生成過程的逆過程:即在已知文檔集(即生成的結(jié)果)的情況下,通過參數(shù)估計(jì),得到參數(shù)值。針對參數(shù)估計(jì),我們需要選擇最優(yōu)化的目標(biāo)函數(shù),在主題模型中通常是整個(gè)語料的概率似然。

    以LDA模型為例,根據(jù)其概率模型很容易得到語料概率似然值p(D∣α,β)p(D|\alpha, \beta)p(Dα,β)為:
    ∏d=1M∫p(θd∣α)(∏n=1Nd∑zdnp(zdn∣θd)p(wdn∣zdn,β))dθd\prod_{d=1}^{M} \int p\left(\theta_ozvdkddzhkzd | \alpha\right)\left(\prod_{n=1}^{N_ozvdkddzhkzd}\sum_{z_{d n}} p\left(z_{d n} | \theta_ozvdkddzhkzd\right) p\left(w_{d n} | z_{d n}, \beta\right) \right) \mathrmozvdkddzhkzd \theta_ozvdkddzhkzd d=1M?p(θd?α)(n=1Nd??zdn??p(zdn?θd?)p(wdn?zdn?,β))dθd?
    其中,D代表整個(gè)語料,也就是所有文檔的集合,NdN_dNd?表示第d篇文檔的長度,θd\theta _dθd?表示第d篇文檔的主題概率分布,wdnw_{dn}wdn?表示第d篇文檔的第n個(gè)單詞,zdnz_{dn}zdn?表示wdnw_{dn}wdn?的主題,該函數(shù)以α\alphaαβ\betaβ為參數(shù),通過對目標(biāo)函數(shù)進(jìn)行最大化來估計(jì)α\alphaαβ\betaβ的值。

    主題模型訓(xùn)練完成后,我們便可以使用訓(xùn)練好的主題模型對新的樣本進(jìn)行推斷,通過主題模型將以詞項(xiàng)空間表達(dá)的文檔變換到新的主題空間,得到一個(gè)以主題為坐標(biāo)的低維表達(dá),該表達(dá)也就是文檔的主題概率分布。

    概率隱性語義索引(probabilistic Latent Semantic Indexing, pLSI)是Hofmann在1999年提出的一個(gè)主題模型,旨在尋找一個(gè)從詞項(xiàng)空間到隱性語義(即主題)空間的變換。
    pLSI生成數(shù)據(jù)集的步驟如下:

  • 選擇一個(gè)文檔編號d~p(d)d \sim p(d)dp(d)
  • 對文檔d中的每個(gè)單詞重復(fù)以下過程:
  • 選擇一個(gè)隱含主題z~p(z∣d)z \sim p(z|d)zp(zd)
  • 生成一個(gè)單詞w~p(w∣z)w \sim p(w|z)wp(wz)
    觀察上述過程,容易得到模型的兩組主要參數(shù)$p(w | z) 和和 p(z | d)$,即個(gè)主題下的詞項(xiàng)分布和各文檔的主題概率分布,由于沒有概率分布的類型,這兩組參數(shù)其實(shí)就是兩張二維的參數(shù)表,需要通過參數(shù)估計(jì)來確定二維表的每個(gè)參數(shù)的值。
  • 共軛先驗(yàn)分布,如果后驗(yàn)概率和先驗(yàn)概率滿足同樣的分布,那么先驗(yàn)分布和后驗(yàn)分布被叫做共軛分布,同時(shí)先驗(yàn)分布叫做似然函數(shù)的共軛先驗(yàn)分布:
    P(θ∣x)=P(x∣θ)?P(θ)P(x)∝P(x∣θ)?P(θ)P(\theta | x)=\frac{P(x | \theta) \cdot P(\theta)}{P(x)} \propto P(x | \theta) \cdot P(\theta) P(θx)=P(x)P(xθ)?P(θ)?P(xθ)?P(θ)
    采用共軛先驗(yàn)分布的原因是:一方面可以使得先驗(yàn)分布和后驗(yàn)分布的形式相同,符合人的直覺;另一方面,可以形成一個(gè)先驗(yàn)鏈,即現(xiàn)在的后驗(yàn)部分可以作為下一次計(jì)算的先驗(yàn)分布。

    舉個(gè)例子,二項(xiàng)分布的似然函數(shù)是:P(x∣θ)=θx?(1?θ)1?xP(x | \theta)=\theta^{x} \cdot(1-\theta)^{1-x}P(xθ)=θx?(1?θ)1?x,其共軛分布是Beta分布,P(θ∣α,β)=θα?1(1?θ)β?1∫01θα?1(1?θ)β?1dθP(\theta | \alpha, \beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_{0}^{1} \theta^{\alpha-1}(1-\theta)^{\beta-1} d \theta}P(θα,β)=01?θα?1(1?θ)β?1dθθα?1(1?θ)β?1?,根據(jù)貝葉斯公式計(jì)算后驗(yàn)概率如下:
    P(θ∣x)∝P(x∣θ)?P(θ)∝(θx(1?θ)x)(θα?1(1?θ)β?1)=θx+α?1(1?θ)1?x?α?1\begin{array}{l} {P(\theta | x)} \\ {\propto P(x | \theta) \cdot P(\theta)} \\ {\propto\left(\theta^{x}(1-\theta)^{x}\right)\left(\theta^{\alpha-1}(1-\theta)^{\beta-1}\right)}\\ {=\theta ^{x+\alpha-1}(1-\theta)^{1-x-\alpha-1}} \end{array} P(θx)P(xθ)?P(θ)(θx(1?θ)x)(θα?1(1?θ)β?1)=θx+α?1(1?θ)1?x?α?1?
    歸一化這個(gè)后驗(yàn)概率可以得到另一個(gè)Beta分布。

    總結(jié)

    以上是生活随笔為你收集整理的社交网络与社会计算课程内容梳理总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。