透彻理解半监督学习的重要思想及概率视角
https://www.toutiao.com/a6650994292544242179/
?
2019-01-27 12:55:07
半監督學習本質上,是從小標記集和大非標記集學習。
半監督學習(Semi-supervised Learning):訓練集同時包含有標記樣本數據和未標記樣本數據,不需要人工干預,讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是半監督學習。
半監督學習的重要性與必要性
在許多機器學習的實際應用中,很容易找到海量的無類標簽的樣例,但需要使用特殊設備或經過昂貴且用時非常長的實驗過程進行人工標記才能得到有類標簽的樣本。
?
現在有新聞,有一些地方興起人工智能產業中的標注產業,有大量的數字標注工廠,號稱“數字富士康”,這說明大量無標注的存在,特別是在人工智能新興產業下,更是如此;另一方面,說明了科學利用無標簽數據的必要性和重要性。
?
因此,現實世界中極少量的有類標簽的樣本和大量的無類標簽的樣例。人們嘗試將大量的無類標簽的樣例加入到有限的有類標簽的樣本中一起訓練來進行學習,期望能對學習性能起到改進的作用,由此產生了半監督學習。半監督學習避免了數據和資源的浪費,同時解決了有監督學習的模型泛化能力不強和無監督冠心病的模型不精確等問題。
?
在不考慮無標簽數據時,只有1和2兩個有標簽數據,此時的決策邊界是圖中的虛線,當我們將無標簽數據考慮以后,兩類樣本所服從的分布發生改變,從而導致決策邊界向右偏移,變成黑色實線。上述過程的直觀理解就是隨著我們能夠拿到的樣本集的增多,我們對于正負兩類樣本的信息掌握更加充分,從而使我們做出更好的決策。
半監督學習的重要思想
無標簽是現實世界的本來的存在和普遍的存在
在現實世界中,對于事物的認識是一個逐漸迭代的過程,是從無到有,從陌生到熟悉,從熟悉到精確的過程。有監督學習中的標簽也是人類在自然實踐與社會實踐中,逐步修正已有認識,并且運用歸納和演繹推理,得出的,并且仍然在完善的過程中。比如對于貓和狗的分類,對于貓又有很多不同的各類,如波斯貓、挪威森林貓、中國貍花貓,等等,很多,很多。
所以半監督學習就是這樣一個動態過程的一個很好的模擬。
為什么半監督能行?模型假設符合相似性聚簇原理
半監督學習為什么可行?這個就要了解一下半監督學習中的理論前提,即模型假設,當模型假設正確時,無標簽的樣例能夠幫助改進學習性能。而理論前提,就是我們之前在提到過的相似性原理,相似性聚簇,在現實世界中普遍存在,在晚上,在中國大片土地上用燈光的聚簇就可以定位大城市、特大城市。
- 平滑假設(Smoothness Assumption)
位于稠密數據區域的兩個距離很近的樣例的類標簽相似?;蛘哒f,當兩個樣例被稠密數據區域中的邊連接時,它們有相同的類標簽概率要大;相反地,當兩個樣例被稀疏數據區域分開時,它們的類標簽趨于不同.
- 聚類假設(Cluster Assumption)
當兩個樣例位于同一聚類簇時,它們有相同類標簽的概率很大。這個假設的等價定義為低密度分離假設(Low Sensity Separation Assumption),即分類決策邊界應該穿過稀疏數據區域,而避免將稠密數據區域的樣例分到決策邊界兩側。
- 流形假設(Manifold Assumption)
將高維數據嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。
許多實驗研究表明當不滿足這些假設或模型假設不正確時,無類標簽的樣例不僅不能對學習性能起到改進作用,反而會惡化學習性能,導致半監督學習的性能下降。
實現半監督算法的概率視角
半監督生成模型是以概率視角求解半監督算法的。該方法假設所有數據(無論是否有標記)都是由同一潛在的模型生成的,分布類型相同。通過這個假設潛在模型的參數將未標記數據與學習目標聯系起來,而未標記數據的標記可作為模型的缺失參數,通常基于EM算法進行極大似然估計求解。生成式方法的重點是對于生成式模型的假設,不同的模型假設將產生不同的方法。
?
這個方法的關鍵也就是這個模型假設必須準確,即假設的生成式模型必須與真實數據分布吻合;否則利用未標記數據反倒會降低泛化性能。 這個不好控制,也是好多學習機器學習的人比較討厭的,但這是錯誤的!模型的構建過程允許試錯,也就是當結果不是很理想,可以反思先驗是否準確,繼而,修正先驗,繼續迭代模型。
監督生成模型
在監督學習中,二分類中生成模型的數據有C1和C2兩類數據組成,尋找最可能的先驗概率P(Ci)和類依賴概率P(x | Ci),假設每一類的數據都是服從高斯分布,我們可以通過分布得到參數均值μ和和方差Σ。P(x | Ci)是由μ_和Σ參數化的高斯分布。如下圖所示,我們要求得一個決策邊界。
?
利用參數可以知道P(C1)和 P(C2)、μ1、μ2、Σ。并利用這些參數計算某一個例子屬于某一類別的概率 。
?
半監督生成模型
過程和監督生成模型類似,所不同的是,如下圖所示,標記為綠色的點,是無標記的數據,讓分布更加豐滿,由橢圓到圓。
?
這個時候如果仍在使用之前的數據分布明顯是不合理的,需要重新估計數據分布的參數,這個時候可能分布式一個類似于圓形的形狀。這里就需要用未標簽數據來幫助估計新的
(_1),(_2),μ1,μ2,Σ。
由貝葉斯定理的思想,我們知道,未標記的數據_對于這些參數的重新估計趨向更加精確發揮著重要的作用。
EM算法
具體可以采用如下的EM算法進行估計
EM算法是一種流行的迭代算法,用于在丟失數據的問題中進行最大似然估計。EM算法包括兩個步驟,1、期望步驟,即填寫缺失的數據;2、最大化步驟 - 計算參數的新的最大后驗估計。
- 初始化:θ={ P(C_1 ),P(C_2 ), μ1, μ2, Σ }
- 步驟一:計算無標記數據的后驗概率:P_θ(C_1 |x_u )
- 步驟二:更新模型:
?
?
首先對參數進行初始化,之后利用參數計算無標簽數據的后驗概率;然后利用得到的后驗概率更新模型參數,再返回step1,循環執行直至模型收斂。這個算法最終會達到收斂,但是先驗(初始化)對于結果的影響也很大。
為什么先驗對結果的影響大?
?
標記數據的最大可能性:
?
已標記+未標記數據的最大可能性:
?
X_u可以來自C1、C2,迭代求解:
?
由這個最后的概率表達式,可見,先驗參數是非常重要的。
總結
以上是生活随笔為你收集整理的透彻理解半监督学习的重要思想及概率视角的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python画螺旋状图形教程_Pytho
- 下一篇: 大学生职业生涯规划——我的未来我做主