當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

流行学习简单入门与理解

發布時間：2024/1/23 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了流行学习简单入门与理解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近博主再看西瓜書第十三章半監督學習，文章中作者提到需要少量查詢的主動學習、K-means簇的聚類，以及流行學習。對于流行學習，博主也是第一次接觸，下面我們來簡單學習和理解一下流行學習。

1. 半監督學習

SSL的成立依賴于模型假設，當模型假設正確時，無類標簽的樣例能夠幫助改進學習性能。SSL依賴的假設有以下三個：
1)平滑假設(Smoothness Assumption)：位于稠密數據區域的兩個距離很近的樣例的類標簽相似，也就是說，當兩個樣例被稠密數據區域中的邊連接時，它們在很大的概率下有相同的類標簽；相反地，當兩個樣例被稀疏數據區域分開時，它們的類標簽趨于不同。
2)聚類假設(Cluster Assumption)：當兩個樣例位于同一聚類簇時，它們在很大的概率下有相同的類標簽。這個假設的等價定義為低密度分離假設(Low Sensity Separation Assumption)，即分類決策邊界應該穿過稀疏數據區域，而避免將稠密數據區域的樣例分到決策邊界兩側。
聚類假設是指樣本數據間的距離相互比較近時，則他們擁有相同的類別。根據該假設，分類邊界就必須盡可能地通過數據較為稀疏的地方，以能夠避免把密集的樣本數據點分到分類邊界的兩側。在這一假設的前提下，學習算法就可以利用大量未標記的樣本數據來分析樣本空間中樣本數據分布情況，從而指導學習算法對分類邊界進行調整，使其盡量通過樣本數據布局比較稀疏的區域。例如，Joachims提出的轉導支持向量機算法，在訓練過程中，算法不斷修改分類超平面并交換超平面兩側某些未標記的樣本數據的標記，使得分類邊界在所有訓練數據上最大化間隔，從而能夠獲得一個通過數據相對稀疏的區域，又盡可能正確劃分所有有標記的樣本數據的分類超平面。
3)流形假設(Manifold Assumption)：將高維數據嵌入到低維流形中，當兩個樣例位于低維流形中的一個小局部鄰域內時，它們具有相似的類標簽。
流形假設的主要思想是同一個局部鄰域內的樣本數據具有相似的性質，因此其標記也應該是相似。這一假設體現了決策函數的局部平滑性。和聚類假設的主要不同是，聚類假設主要關注的是整體特性，流形假設主要考慮的是模型的局部特性。在該假設下，未標記的樣本數據就能夠讓數據空間變得更加密集，從而有利于更加標準地分析局部區域的特征，也使得決策函數能夠比較完滿地進行數據擬合。流形假設有時候也可以直接應用于半監督學習算法中。例如，Zhu 等人利用高斯隨機場和諧波函數進行半監督學習，首先利用訓練樣本數據建立一個圖，圖中每個結點就是代表一個樣本，然后根據流形假設定義的決策函數的求得最優值，獲得未標記樣本數據的最優標記；Zhou 等人利用樣本數據間的相似性建立圖，然后讓樣本數據的標記信息不斷通過圖中的邊的鄰近樣本傳播，直到圖模型達到全局穩定狀態為止。
從本質上說，這三類假設是一致的,只是相互關注的重點不同。其中流行假設更具有普遍性。

2. 流行學習

流形學習是個很廣泛的概念。這里我主要談的是自從2000年以后形成的流形學習概念和其主要代表方法。自從2000年以后，流形學習被認為屬于非線性降維的一個分支。眾所周知，引導這一領域迅速發展的是2000年Science雜志上的兩篇文章: Isomap and LLE (Locally Linear Embedding)。

2.1. 流形學習的英文名為manifold learning。其主要思想是把一個高維的數據非線性映射到低維，該低維數據能夠反映高維數據的本質，當然有一個前提假設就是高維觀察數據存在流形結構，其優點是非參數，非線性，求解過程簡單。

2.2. 流形學習的可行性是因為：1.從認知心理學的角度來講心理學家認為人的認知過程是基于認知流形和拓撲連續性的；2.許多高維采用數據都是由少數幾個隱變量所決定的，所以可以用少數的低維數據來刻畫高維數據。

2.3. 流形學習所需的數學背景知識：微分流形，黎曼流形，微分幾何，切向量場，拓撲空間，光滑映射等。

2.4. 經典流形學習算法：

Isomap：等距映射。前提假設為低維空間中的歐式距離等于高維空間中的側地線距離，當然該算法具體實施時是高維空間中較近點之間的測地線距離用歐式距離代替，較遠點距離用測地線距離用最短路徑逼近。

LLE:局部線性嵌入。前提假設是數據所在的低維流形在局部是線性的，且每個采樣點均可以利用其近鄰樣本進行線性重構表示。

LE：拉普拉斯特征映射。前提假設是在高維中很近的點投影到低維空間中的象也應該離得很近。

HLLE:局部等距映射。前提假設是如果一個流形局部等距與歐式空間中的一個開集，那么由這個流形到開集的映射函數為一個線性函數，線性函數的二次混合偏導數為0，所以由hessian系數構成的二次型也為0.

LPP:局部保留投影。在LE算法的基礎上，假設一個從原空間到流形空間的映射矩陣P，然后通過某種方法求出P，最后得到了一個顯示的投影映射。

LTSA:局部坐標表示。其基本思想是流形的局部幾何先用切坐標表示，那么流形中的每一個點處的切空間可以和歐式空間中的一個開子集建立同構，也就是切映射。

MVU:局部等距。構造一個局部的稀疏歐式距離矩陣，同構保持距離來學習一個核矩陣。

Logmap:側地距離和方向。思想是已知流形空間中一點的坐標和方向，通過切平面找到法坐標，形成一個指數映射。

……

2.5.流形學習存在的問題：

抗干擾噪聲能力差，低維空間的維數不好確定，需要存在流形結構這一假設，采樣需要稠密采樣，測試數據的out-of-samples問題。

2.6.流形學習未來的發展方向：

提高魯棒性，可視化手段提高，低維空間維數的確定，與統計學習結合等。

參考：

1.半監督學習的基本假設

2.流行學習初步理解?

3.流形學習 (Manifold Learning)

4.淺談流形學習

總結

以上是生活随笔為你收集整理的流行学习简单入门与理解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。