當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记(十三)半监督学习

發布時間：2025/4/16 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记(十三)半监督学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

13.半監督學習

這章介紹半監督學習方法。

13.1未標記樣本

先說兩個概念：

1）有標記樣本（Labeled）

訓練樣本集D_l={(x₁,y₁), (x₂,y₂),…, (x_l,y_l)}，這l個樣本的類別標記已知。

2）未標記樣本（unlabeled）

訓練樣本集D_u={x_l+1, x_l+2,…, x_l+u}，u遠大于l，這u個樣本的類別標記未知。

監督學習技術是基于有標記樣本D_l的訓練來構建模型，未標記樣本D_u所包含的信息未被利用；如果有標記樣本D_l樣例少的話，學得的模型泛化能力也不強，因此需要考慮將未標記樣本D_u利用起來。利用D_u學習模型的方法：

1）主動學習（activelearning）

先用D_l訓練出一個模型，然后用這個模型去D_u樣本中選擇一個樣本，并和專家進行交互將未標記轉變為有標記樣本，新標記樣本重新訓練模型…如此可大幅降低標記成本，只需通過少量未標記樣本通過專家來標記就能改善模型，少的查詢獲得好的性能。

主動學習就是要引入專家知識，通過與外部交互來將部分未標記樣本轉變為有標記樣本。如果不通過外部標記，還可以利用未標記樣本，就是半監督學習的研發范圍。

2）半監督學習

基于一個事實：未標記樣本雖未直接包含標記信息，但若它們與有標記信息樣本是從同樣的數據源獨立同分布采樣而來，則它們所包含的關于數據分布的信息對建立模型是有幫助的。

半監督學習（semi-supervised learning）：讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能。在現實任務中，未標記樣本多、有標記樣本少是一個比價普遍現象，如何利用好未標記樣本來提升模型泛化能力，就是半監督學習研究的重點。

要利用未標記樣本，需假設未標記樣本所揭示的數據分布信息與類別標記存在聯系。

一是聚類假設（cluster assumption），假設數據存在簇結構，同一個簇的樣本屬于同一個類別。另一個是流形假設（manifold assumption），假設數據分布在一個流形結構上，鄰近的樣本擁有相似的輸出值；鄰近程度用相似程度來刻畫，距離計算大概就是最基礎的。

流形假設可看作是聚類假設的推廣，不過流形假設對輸出值沒有限制，比聚類假設的適用范圍更廣，可用于更多的學習任務。二者的本質是一樣的，都基于相似的樣本擁有相似的輸出這樣一個假設。

半監督學習可進一步劃分為純(pure)半監督學習和直推學習（transductive learning）：純半監督學習假定訓練數據中的未標記樣本并非待預測數據；而直推學習假定學習過程中所考慮的未標記樣本恰是待預測數據，學習的目的就是在未標記樣本上獲得最優泛化性能。

純半監督學習是基于開放世界的假設，希望學得的模型能適用于訓練過程中未觀察到的數據；而直推學習是基于封閉世界假設，僅試圖對學習過程中觀察到的未標記數據進行預測。

13.2生成式方法

生成式方法（generativemethods）是直接基于生成式模型的方法。該方法假設所有數據（無論是否有標記）都是由同一潛在的模型生成的。通過這個假設通過潛在模型的參數將未標記數據與學習目標聯系起來，而未標記數據的標記可作為模型的缺失參數，通常基于EM算法進行極大似然估計求解。生成式方法的重點是對于生成式模型的假設，不同的模型假設將產生不同的方法。當然這個方法的關鍵也就是這個模型假設必須準確，即假設的生成式模型必須與真實數據分布吻合；否則利用未標記數據反倒會降低泛化性能。該方法簡單實現，不過在現實任務中，往往很難事先做出準確的模型假設，除非擁有充分可靠的領域知識。下面通過高斯混合分布模型及EM算法求解來說明生成式半監督學習方法。

將高斯混合模型換成混合專家模型、樸素貝葉斯模型等即可推導出其他的生成式半監督學習方法。

13.3半監督SVM

半監督支持向量機（Semi-Supervised Vector Machin，S3VM）是支持向量機在半監督學習上的推廣。不考慮未標記樣本的情況，支持向量機試圖找到最大間隔劃分超平面；在考慮未標記樣本的情況下，S3VM試圖找到能將兩類有標記樣本分開，且穿過數據低密度區域的劃分超平面。低密度分隔（low-densityseparation）假設是聚類假設在考慮了線性超平面劃分后的推廣。

半監督支持向量機中比較著名的是TSVM（Transductive Support Vector Machin），是針對二分類問題的學習方法。TSVM試圖考慮對未標記樣本進行可能的標記指派（Label Assignment），即嘗試將每個未標記樣本分別作為正例或反例，然后在所有這些結果中，尋求一個在所有樣本（包括有標記樣本和進行了標記指派的未標記樣本）上間隔最大化的劃分超平面。一旦劃分超平面確定，未標記樣本的最終標記指派就是其預測結果。

在對未標記樣本進行標記指派和調整的過程中，有可能出現類別不平衡問題，即某類的樣本遠多于另一類，這對SVM的訓練造成困擾。為減輕類別不平衡性所造成的不利影響，改進算法如下：將優化目標中的C_u拆分成C_u+和C_u-兩項，分別對應基于偽標記而當作正、反例使用的未標記樣本，并在初始化時令(C_u+)=(u-/u+)( C_u-)，其中u-和u+為基于偽標記而當作正、反例使用的未標記樣本數。

搜索標記指派可能出錯的每一對未標記樣本進行調整，涉及巨大的計算開銷的大規模優化問題，因此，半監督SVM更多的研究在于如何涉及出更高效的優化求解策略；發展出很多方法，如基于圖核（graphkernel）函數梯度下降的LDS、基于標記均值估計的MeanS3VM等。

13.4圖半監督學習

給定一個數據集，將其映射為一個圖，數據集中每個樣本對應于圖中的一個結點，若兩個樣本之間的相似度很高（或相關性很強），則對應的結點之間存在一條邊，邊的強度（strength）正比于樣本之間的相似度（或相關性）。將有標記樣本所對應的結點染色，而未標記樣本所對應的結點尚未染色；半監督學習對應于顏色在圖上擴散或傳播的過程；一個圖對應一個矩陣，可基于矩陣運算來進行半監督學習算法的推導與分析。

圖半監督學習方法在概念上相當清晰，且易于通過對所涉矩陣運算的分析來探索算法性質。不過該類算法有兩個缺點：1）存儲開銷上，樣本數m下，矩陣規模為O(m²)，很難直接處理大規模數據；2）構圖過程僅能考慮訓練樣本集，對新樣本在圖中的位置難以知曉，在接收新樣本時或將其加入原數據集對圖進行重構并重新進行標記傳播，或是需引入額外的預測機制，如將D_l和經標記傳播后得到標記的D_u合并作為訓練集，另外訓練一個學習器如支持向量機來對新樣本進行預測。

13.5基于分歧的方法

與生成式方法、半監督SVM、圖半監督學習等基于單學習器利用未標記數據不同，基于分歧的方法（disagreement-basedmethods）使用多學習器，而學習器之間的分歧（disagreement）對未標記數據的利用至關重要。協同訓練（co-training）是基于分歧方法的重要代表，針對多視圖（multi-view）數據設計，也是多視圖學習的代表。

1）多視圖數據

多視圖數據是指一個數據對象同時擁有多個屬性集（attribute set），每個屬性集構成一個視圖（view）。如一部電影，擁有圖像畫面信息所對應的屬性集、聲音信息所對應的屬性集、字幕信息所對應的屬性集、網上宣傳討論所對應的屬性集等多個屬性集。若只考慮電影多視圖數據中的圖像屬性集和聲音屬性集，一個電影片段樣本用(<x¹,x²>,y)表示，其中xⁱ是樣本在視圖i中的示例，即基于該視圖屬性描述而得的屬性向量。假定x¹為圖像視圖中的屬性向量，x²為聲音視圖中的屬性向量；y是標記，如電影類型。

2）相容性

假設不同視圖具有相容性（compatibility），即其所包含的關于輸出空間y的信息是一致：令y¹表示從圖像畫面信息判別的標記空間，y²表示從聲音信息判別的標記空間，則有y=y¹=y²。

在相容性的基礎上，不同視圖信息是互補的，給學習器的構建帶來便利。如某個電影片段，從圖像上有兩人對視，無法判斷電影類型，但若加上聲音信息中“我愛你”透露的信息，則可判定為電影類型是愛情片。

3）協同訓練

協同訓練正式基于多視圖數據的相容互補性。假設數據擁有兩個充分（sufficient）且條件獨立視圖，充分是指每個視圖都包含足以產生最優學習器的信息；條件獨立是在給定類別標記條件下每個視圖獨立。

協同訓練如何利用未標記數據呢？首先在每個視圖上基于有標記樣本分別訓練出一個分類器，然后讓每個分類器去選擇自己最有把握的未標記樣本賦予偽標記，并將偽標記樣本提供給另一個分類器作為新增的有標記樣本用于訓練更新…這個互相學習、共同進步的過程不斷迭代進行，直到兩個分類器都不再發生變化，或達到預先設定的迭代輪數為止。一句話，每個視圖根據有標記樣本生成一個學習器，來判別本視圖的未標記數據，然后將打上未標記的樣本作為其他視圖學習器生成的新增有標記樣本。算法描述如下：

4）算法分析

若在每輪學習中都考察分類器在所有未標記樣本上的分類置信度，會產生很大的計算開銷，因此在算法中使用了未標記樣本緩沖池。分類置信度的估計因基學習算法A而異，如若使用樸素貝葉斯分類器，可將后驗概率轉化為分類置信度；若使用支持向量機，則可將間隔大小轉化為分類置信度。

協同訓練的理論證明顯示，若兩個視圖充分且條件獨立，則可利用未標記樣本通過協同訓練將弱分類器的泛化性能提升到任意高。不過這個前提條件在現實任務中很難滿足，但就是視圖充分就基本無法做到，不過即便如此，協同訓練仍可有效地提升弱分類器的性能。

5）算法衍變

協同訓練算法是為多視圖數據而設計的，后面也出現了在單視圖上使用的變體算法，或使用不同學習算法，或使用不同數據采樣，甚至使用不同的參數設置來產生不同學習器，也能有效地利用未標記數據來提升性能。實際，原理思想是一致，就是在不同學習器之間產生互補。

后續理論研究表明，這類算法并不一定數據是擁有多視圖，而僅需弱學習器之間具有顯著的分歧（或差異），即可通過相互提供偽標記樣本的方式來提升泛化性能。不同視圖、不同算法、不同數據采樣、不同參數設置等，都是產生差異的渠道，而非必備條件。

6）總結

基于分歧的方法只需采用合適的基學習器，就能較少受到模型假設、損失函數非凸性和數據規模問題的影響。該方法需能生成具有顯著分歧、性能尚可的多個學習器，但當有標記樣本很少，尤其是數據不具有多視圖時，需巧妙設計才能實現。

13.6半監督聚類

聚類是無監督學習任務，為利用現實任務中獲得的監督信息，提出半監督聚類（semi-supervised clustering）來利用監督信息以獲得更好的效果。

聚類任務中獲得的監督信息分兩種：1）有必連（must-link）和勿連（cannot-link）約束，必連是指樣本必屬于同一個簇，勿連是指樣本必不屬于同一個簇；2）含有少量的有標記樣本。下面針對這兩種類型的監督信息說明。

1）必連和勿連約束

要利用必連和勿連約束的監督信息，可通過約束k均值（Constrained k-means）算法。給定樣本集D={x ₁,x ₂,…,x _m}以及必連關系集合M和勿連關系集合C；(x _i,x _j)∈M表示x _i,與x _j必屬于同簇，(x _i, x _j)∈C表示x _i,與x _j必不屬于同簇。約束k均值算法是在k均值算法基礎上擴展，在聚類過程中確保M與C中的約束得以滿足；算法描述如下：

2）含有少量有標記樣本

給定樣本集D={x ₁,x ₂,…,x _m}，假定少量的有標記樣本，其中為隸屬于第j個聚類簇的樣本。直接將有標記樣本作為種子，初始化k均值算法的k個聚類中心，并且在聚類迭代更新過程中不改變種子樣本的簇隸屬關系，就是約束種子k均值（Constrained Seed k-means）算法。算法描述如下：

本章總結：對于半監督學習給出了：1）依賴模型假設（應用領域專業知識）的生成式半監督學習方法；2）非凸性和低密度劃分的半監督SVM方法，重點要掌握S3VM；3）基于聚類假設和圖劃分的圖半監督學習方法；4）基于分歧的集成學習方法，重點掌握協同訓練；5）依賴樣本中存在監督信息的半監督聚類學習方法。本章最后的小故事提到的黎曼猜想，若是專注數學，可以理解和研究，不過對于流形概念可以重點認識下。

總結

以上是生活随笔為你收集整理的机器学习笔记(十三)半监督学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： centos下新建超级用户及sudoer
下一篇：不是《归去来》是《难念的经》