机器学习——经典降维算法与框架综述
目錄???????
綜述
一、介紹
二、?降維算法回顧
1.KNN
1.1 KNN核心思想
1.2 KNN算法流程
1.3 KNN算法優(yōu)缺點(diǎn)
2.線性降維
(1)PCA
2.1.1 PCA簡介
2.1.2 PCA優(yōu)化問題與算法流程
(2)LDA
2.2.1 LDA簡介
2.2.2 LDA優(yōu)化問題與算法流程
3.流形學(xué)習(xí)
(1)MDS
3.1.1 MDS簡介
3.1.2 MDS優(yōu)化問題與算法流程
(2)?Isomap
3.2.1 Isomap簡介
3.2.2 Isomap算法流程
(3)LLE
3.3.1 LLE簡介
3.3.2 LLE優(yōu)化問題與算法流程
三、降維算法的優(yōu)化
1.2DPCA
1.1 PCA不足之處
1.2 2DPCA簡介
2.MMC
2.1 LDA不足之處
2.2 MMC簡介
3.正則化
3.1 分類(擬合)問題
3.2 正則化簡介
4.核方法
4.1 線性降維的不足
4.2 核方法簡介
四、降維框架
1.圖嵌入框架
1.1 圖嵌入視角下的降維
1.2 不同形式的圖嵌入?
1.3 圖嵌入平臺
2.半監(jiān)督降維框架
五、實(shí)驗(yàn)
六、結(jié)論
七、主要參考文獻(xiàn)
綜述
? ? 在模式識別和機(jī)器學(xué)習(xí)領(lǐng)域,為了避免 "維度災(zāi)難",尋找高維數(shù)據(jù)的低維表示是一項(xiàng)基本任務(wù)。在過去的幾十年里,大量的算法--有監(jiān)督的或無監(jiān)督的;來自統(tǒng)計(jì)學(xué)或幾何學(xué)理論的--已經(jīng)被設(shè)計(jì)出來,為降維問題提供不同的解決方案。本文在大量相關(guān)研究論文的基礎(chǔ)上,對機(jī)器學(xué)習(xí)中經(jīng)典的降維算法和降維框架進(jìn)行了回顧和總結(jié),包括算法的原理、過程和優(yōu)化問題的推導(dǎo),以及觀點(diǎn)的統(tǒng)一和框架的構(gòu)建。還通過實(shí)驗(yàn)分析了不同降維方法和框架應(yīng)用于不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,并通過統(tǒng)計(jì)分析回顧和說明了算法框架之間的聯(lián)系和區(qū)別。
索引范圍-降維,流形學(xué)習(xí),子空間學(xué)習(xí),框架。
一、介紹
? ? 在模式識別和機(jī)器學(xué)習(xí)領(lǐng)域,許多應(yīng)用,如基于外觀的圖像識別和文檔分類,都面臨著高維度的問題,而 "維度災(zāi)難 "會導(dǎo)致各種問題,如計(jì)算效率低和實(shí)驗(yàn)結(jié)果差。尋找高維數(shù)據(jù)的低維表示是一項(xiàng)基本任務(wù)。
? ? 使用減少的特征,分類可以更快、更穩(wěn)健。因此,大量的有監(jiān)督和無監(jiān)督(線性降維、流形學(xué)習(xí)、核方法等)的降維算法和源于統(tǒng)計(jì)學(xué)或幾何學(xué)理論的降維框架,用于解決機(jī)器學(xué)習(xí)發(fā)展中的降維問題,其中每種降維算法的原理、切入點(diǎn)和優(yōu)化目標(biāo)不同,導(dǎo)致不同算法之間的優(yōu)化問題和算法過程不同,增加了學(xué)習(xí)、理解和應(yīng)用的難度,因此一些降維框架(圖嵌入框架、半監(jiān)督降維框架等)已經(jīng)被提出來,在一個(gè)統(tǒng)一的視角和平臺下解釋一些降維算法。
? ? 本文將介紹機(jī)器學(xué)習(xí)中經(jīng)典的降維算法和框架的原理并推導(dǎo)出優(yōu)化問題,并將不同的降維算法和框架應(yīng)用于實(shí)際問題(以人臉識別為例),并結(jié)合統(tǒng)計(jì)和理論分析,對不同的降維方法和框架在不同的數(shù)據(jù)集上進(jìn)行多維度的比較,并在分析實(shí)驗(yàn)現(xiàn)象和結(jié)果的基礎(chǔ)上給出合理的實(shí)驗(yàn)結(jié)論。
? ? 本論文的其余部分結(jié)構(gòu)如下。第2節(jié)介紹了各種經(jīng)典降維算法的基本思路和優(yōu)化問題的推導(dǎo)。第3節(jié)總結(jié)了經(jīng)典降維算法的不足之處,并針對相應(yīng)的不足之處提出了一種最優(yōu)的降維方法。第四節(jié),本文以圖嵌入框架和半監(jiān)督降維框架為例,介紹了降維框架的提出和構(gòu)建方法。在第5節(jié)中,我們通過降維算法和框架在實(shí)驗(yàn)中的應(yīng)用以及對實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析,說明了算法和框架之間的聯(lián)系和區(qū)別。最后,我們在第6節(jié)中得出結(jié)論。
二、?降維算法回顧
? ? 在過去的幾十年里,為了解決 "維度災(zāi)難 "的問題,很多降維算法都被提出來用于降維任務(wù)。盡管這些算法的動(dòng)機(jī)、原理、切入點(diǎn)和優(yōu)化目標(biāo)都不一樣,但它們的目標(biāo)是相似的,即得出低維表示并促進(jìn)后續(xù)分類任務(wù)的進(jìn)行。
? ? 對于一般的分類問題,用于模型訓(xùn)練的樣本集表示為矩陣X = [x1 , x2 , ..., xN], xi ∈ ?m,其中N是樣本數(shù),m是特征維度(m維)。對于監(jiān)督學(xué)習(xí)問題,假設(shè)樣本xi的類標(biāo)簽為ci∈{1,2,...,Nc},其中Nc是類的數(shù)量。我們還讓πc和nc分別表示屬于第c類的樣本的索引集和數(shù)量。降維的基本任務(wù)是找到一個(gè)映射函數(shù)F : x?→ y:將x∈?m轉(zhuǎn)換為所需的低維表示y∈?d,其中,m >> d,如公式(1)所示:
? ? 在不同的情況下,函數(shù)F可能是顯性的或隱性的,線性的或非線性的。對于不同類型的數(shù)據(jù),即向量、矩陣和本文后面介紹的一般張量,在圖1中顯示了一個(gè)直觀的降維說明。在本節(jié)中,我們將從線性降維和流形學(xué)習(xí)的角度來推導(dǎo)一些經(jīng)典降維算法的優(yōu)化問題,并介紹相應(yīng)的算法過程。
圖1. 對不同形式的數(shù)據(jù)進(jìn)行降維的說明。請注意,三階張量數(shù)據(jù)是Gabor過濾的圖像
1.KNN
? ? 在正式介紹降維算法之前,我們先介紹機(jī)器學(xué)習(xí)中最簡單的算法之一:KNN。作為一種經(jīng)典的分類算法,KNN在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的實(shí)際應(yīng)用中經(jīng)常與降維算法一起使用,這有助于更好地完成分類和識別等任務(wù)。
1.1 KNN核心思想
? ? 一個(gè)樣本與數(shù)據(jù)集中的k個(gè)樣本最為相似,如果這k個(gè)樣本中的大多數(shù)屬于某個(gè)類別,那么這個(gè)樣本也屬于這個(gè)類別。換句話說,這種方法只根據(jù)最近的一個(gè)或幾個(gè)樣本(k人為設(shè)定)的類別來決定要分類的樣本的類別,KNN方法在類別決定中只與極少數(shù)的相鄰樣本有關(guān),KNN算法的概念在圖2中被直觀地描述出來。
圖2 KNN核心思想可視化樣例
1.2 KNN算法流程
? ? KNN的一般算法過程是用公式(2)或(3)計(jì)算給定的兩個(gè)樣本集X和Y的歐氏距離,將距離按升序排序,取前k個(gè),并進(jìn)行(加權(quán))平均。
1.3 KNN算法優(yōu)缺點(diǎn)
? ? KNN算法優(yōu)缺點(diǎn)如表1總結(jié):?
表1 KNN算法優(yōu)缺點(diǎn)
| 優(yōu)點(diǎn) | 缺點(diǎn) |
| 簡單而有效 | 惰性學(xué)習(xí) |
| 再訓(xùn)練的成本低 | 類別分類沒有標(biāo)準(zhǔn)化 |
| 算法復(fù)雜度低 | 輸出的可解釋性不強(qiáng) |
| 適用于類域交叉的樣本 | 不均勻性 |
| 大樣本的自動(dòng)分類 | 計(jì)算量大 |
2.線性降維
? ? 線性降維,即用簡單的線性方法對數(shù)據(jù)進(jìn)行降維,在機(jī)器學(xué)習(xí)領(lǐng)域一般分為有監(jiān)督算法和無監(jiān)督算法,區(qū)別在于前者將數(shù)據(jù)的標(biāo)簽信息作為先驗(yàn)知識。本小節(jié)將以無監(jiān)督的PCA和有監(jiān)督的LDA這兩種經(jīng)典的降維算法為例,探討線性降維的特點(diǎn),分析其實(shí)驗(yàn)效果和優(yōu)缺點(diǎn)。
(1)PCA
2.1.1 PCA簡介
? ? PCA(主成分分析)是一種主流的、簡單的無監(jiān)督的線性降維算法。它以 "重建誤差最小化 "或 "散點(diǎn)最大化 "為目標(biāo),在低維空間中找到一個(gè)有效的投影軸,通過投影,將原始數(shù)據(jù)中相對重要的信息表達(dá)出來,從而達(dá)到降維的目的,PCA的算法概念直觀地描繪在圖3中:
圖3 PCA原理可視化?
2.1.2 PCA優(yōu)化問題與算法流程
? ? 根據(jù)PCA的核心關(guān)注點(diǎn),考慮到整個(gè)數(shù)據(jù)集,原始樣本點(diǎn)和基于投影的重構(gòu)樣本點(diǎn)之間的關(guān)系應(yīng)該按照最近可重構(gòu)性最小化,所以PCA的優(yōu)化問題可以寫成公式(4),其中W是正交基的集合,∑i x_i x_i^T是協(xié)方差矩陣。
? ? 從最大可分性出發(fā),可以得到PCA的另一種解釋,即核心概念中提到的最大化投影樣本點(diǎn)的散布,方程(5)就是這種解釋下的PCA優(yōu)化問題,其中∑i W^T x_i x_i^T W是樣本點(diǎn)的方差。
? ? PCA優(yōu)化問題的解決可以通過拉格朗日算子法和廣義特征值分解得到。根據(jù)PCA的核心關(guān)注點(diǎn)和優(yōu)化問題的解決,可以將PCA算法的步驟總結(jié)為表2:
表2 PCA算法流程
| 1.輸入樣本集的低維空間數(shù)d |
| 2.所有樣本的集中化 |
| 3.計(jì)算樣本XXT的協(xié)方差矩陣 |
| 4.對協(xié)方差矩陣進(jìn)行特征值分解 |
| 5.取最大的d個(gè)特征值w1,w2...對應(yīng)的特征向量 |
| 6.輸出投影矩陣W = (w1,w2..., wd) |
PCA原理補(bǔ)充及其代碼實(shí)踐應(yīng)用可見:
機(jī)器學(xué)習(xí)——PCA(主成分分析)與人臉識別_@李憶如的博客-CSDN博客_pca人臉識別
(2)LDA
2.2.1 LDA簡介
? ? LDA(線性判別分析)是一種主流的、簡單的監(jiān)督式線性降維算法。它以 "類內(nèi)方差最小化,類間方差最大化 "為目標(biāo),找到可以優(yōu)化分類的特征子空間,對數(shù)據(jù)進(jìn)行投影,以達(dá)到降維的目的。圖4直觀地描述了LDA的算法概念。
圖4?LDA原理可視化??
2.2.2 LDA優(yōu)化問題與算法流程
? ? 由于LDA需要最小化類內(nèi)方差和最大化類間方差,并發(fā)現(xiàn)最優(yōu)分類的特征子空間,所以類內(nèi)散射矩陣Sw和類間散射矩陣Sb定義在公式(6)和(7)中,LDA的優(yōu)化問題可以改寫為公式(8)(即Sb和Sw的 "廣義瑞利商")。
? ? 如何確定W?請注意,公式(8)中的分子分母是關(guān)于W的二次項(xiàng),因此,(8)的解與W的長度無關(guān),只與它的方向有關(guān),不失為一個(gè)好辦法,所以〖W^T S_ω W〗=1,那么公式(8)就等同于公式(9)。?
? ? 與PCA類似,LDA優(yōu)化問題的解決可以通過拉格朗日算子法和廣義特征值分解得到。根據(jù)LDA的核心關(guān)注點(diǎn)和優(yōu)化問題的解決,可以將LDA算法的步驟總結(jié)為表3。?
表3 LDA算法流程
| 1.輸入具有低維空間數(shù)d的樣本集 |
| 2.對數(shù)據(jù)集進(jìn)行分類,并計(jì)算出每個(gè)類的均值 |
| 3.計(jì)算類間散點(diǎn)矩陣Sb和類內(nèi)散點(diǎn)矩陣Sw |
| 4.構(gòu)建目標(biāo)函數(shù)Sω-1Sb并對其進(jìn)行特征分解 |
| 5.取最大的d個(gè)特征值w1,w2...所對應(yīng)的特征向量 |
| 6.輸出投影矩陣W = (w1,w2..., wd) |
LDA原理補(bǔ)充及其代碼實(shí)踐應(yīng)用可見:
機(jī)器學(xué)習(xí)——LDA(線性判別分析)與人臉識別_@李憶如的博客-CSDN博客_lda
3.流形學(xué)習(xí)
? ? 在機(jī)器學(xué)習(xí)和模式識別的實(shí)際應(yīng)用中,直接使用線性降維往往是無效的,因?yàn)樗?strong>沒有考慮到數(shù)據(jù)樣本在高維空間的分布和特點(diǎn),所以提出了 "流形學(xué)習(xí) "的概念。流形 "是指與歐氏空間局部同質(zhì)的空間,而流形學(xué)習(xí)是一類借鑒拓?fù)淞餍胃拍畹慕稻S算法,即在高維空間中尋找低維流形并找到相應(yīng)的嵌入映射,以更好地實(shí)現(xiàn)降維或數(shù)據(jù)可視化。圖5通過一個(gè)簡單的例子說明了流形學(xué)習(xí)的本質(zhì)。
? ? 本節(jié)將以流形學(xué)習(xí)為例,介紹三種經(jīng)典算法(MDS、Isomap和LLE)的原理、優(yōu)化問題和算法過程,探討流形學(xué)習(xí)的特點(diǎn),并分析其實(shí)驗(yàn)效果和優(yōu)缺點(diǎn)。
圖5? 流形學(xué)習(xí)原理可視化樣例
(1)MDS
3.1.1 MDS簡介
? ? MDS(多維縮放)的核心概念是利用原始空間的距離矩陣D來計(jì)算減維樣本的內(nèi)積矩陣B,從而使減維的歐氏距離等于原始空間的距離。
3.1.2 MDS優(yōu)化問題與算法流程
? ? MDS的優(yōu)化問題定義在公式(10)中,算法流程總結(jié)在表4中。
表4 MDS算法流程
| 1.輸入距離矩陣D,低維空間數(shù)d |
| 2.根據(jù)相關(guān)公式計(jì)算出內(nèi)積矩陣B |
| 3.對矩陣B做特征值分解 |
| 4.取由d個(gè)最大特征值組成的對角線矩陣A,V為其對應(yīng)的特征向量矩陣。 |
| 5.輸出矩陣VA1/2,每一行是一個(gè)樣本的低維坐標(biāo)? |
(2)?Isomap
3.2.1 Isomap簡介
? ? Isomap(等距測繪)是一種主流的、簡單的流形學(xué)習(xí)算法。從Isomap算法的角度來看,在高維空間中直接計(jì)算直線距離是不合適的,Isomap的核心理念是 "利用流形局部與歐氏空間同質(zhì)的特點(diǎn)建立最近鄰連接圖",將計(jì)算距離的問題轉(zhuǎn)化為計(jì)算最近鄰連接圖上兩點(diǎn)間最短路徑的問題。
3.2.2 Isomap算法流程
? ? Isomap的原理與MDS相似,不同的是Isomap對距離矩陣做了另一種處理,其距離矩陣使用兩點(diǎn)之間的最短距離,所以Isomap重建的距離矩陣D可以作為MDS使用,其他過程是一樣的。
(3)LLE
3.3.1 LLE簡介
? ? 與Isomap試圖保持近鄰樣本之間的距離不同,LLE(局部線性嵌入)試圖保持鄰域之間的線性關(guān)系,如圖6所示,樣本點(diǎn)的坐標(biāo)可以通過鄰域樣本坐標(biāo)的線性組合來重建,而且這種線性關(guān)系的表達(dá)在低維空間仍然可以保持。
圖6 LLE原理可視化
3.3.2 LLE優(yōu)化問題與算法流程
? ? LLE首先找到每個(gè)樣本x_i的近鄰子標(biāo)集Q,然后計(jì)算線性重構(gòu)的系數(shù)ω_i。因此,不難得出LLE的原始優(yōu)化問題為公式(11):
? ? 由于LLE在低維空間中保持重構(gòu)系數(shù)ω_i不變,因此優(yōu)化問題與低維空間中的z和高維空間中的x一一對應(yīng),其中,讓M=(I-W)^T(I-W),優(yōu)化問題可重寫為公式(12):
? ? 與線性降維類似,LLE優(yōu)化問題的解決可以通過拉格朗日算子法與廣義特征值分解得到。根據(jù)LLE的核心概念和優(yōu)化問題的解決,可以將LLE算法的步驟概括為表5:
表5 LLE算法流程?
| 1.輸入樣本集D,最近的鄰居參數(shù)k,低維空間的數(shù)量d |
| 2.確定每個(gè)樣本點(diǎn)的k近鄰,并找到相應(yīng)的重建系數(shù)ωi |
| 3.根據(jù)M=(I-W)^T(I-W)找到M,對M進(jìn)行特征值分解 |
| 4.返回M的d個(gè)最小的特征值所對應(yīng)的特征向量 |
三、降維算法的優(yōu)化
? ? 本節(jié)針對一些經(jīng)典降維算法的不足之處,總結(jié)了一些優(yōu)秀的優(yōu)化算法或一些通用的優(yōu)化方法。在以往的相關(guān)研究中,這些優(yōu)化算法或方法已經(jīng)被理論和實(shí)驗(yàn)證明優(yōu)于原有的降維算法,在算法效率、算法流程、實(shí)驗(yàn)結(jié)果等部分有比較明顯的優(yōu)化。本節(jié)主要介紹原有算法的不足之處,一些優(yōu)化降維算法(PCA、LDA)的優(yōu)化思路和優(yōu)化效果,以及一些通用的優(yōu)化方法(正則化、核方法)。
1.2DPCA
1.1 PCA不足之處
? ? 通過分析PCA的優(yōu)化問題推導(dǎo)和算法流程,我們不難發(fā)現(xiàn)許多不足之處,如表6所述:
表6 PCA不足
| 1.在高數(shù)據(jù)量的情況下,將矩陣轉(zhuǎn)換為一維的計(jì)算量很大,會降低算法的效率。 |
| 2.PCA是無監(jiān)督的,不利用樣本信息作為先驗(yàn)知識 |
| 3.主成分特征維度的含義是模糊的,可解釋性很差 |
| 4.對不符合高斯分布的數(shù)據(jù)效果不佳 |
1.2 2DPCA簡介
? ? 2DPCA(Two-Dimensional PCA)是針對表6中PCA的第一個(gè)缺陷而優(yōu)化的。2DPCA與PCA的區(qū)別在于,前者直接對矩陣進(jìn)行操作,重新定義協(xié)方差矩陣,如公式(13),相當(dāng)于去除圖像的行向量或列向量的相關(guān)性,從而提高算法的效率,其他步驟和推導(dǎo)與經(jīng)典PCA基本相同。
2.MMC
2.1 LDA不足之處
? ? 雖然LDA是機(jī)器學(xué)習(xí)和模式識別領(lǐng)域常用的有效監(jiān)督算法,但通過分析LDA的優(yōu)化問題推導(dǎo)和算法流程,還是發(fā)現(xiàn)了很多不足之處,如表7所述:
表7?LDA不足
| 1.有限投影軸問題(≤類的數(shù)量-1) |
| 2.小樣本量問題 |
| 3.矩陣反演的計(jì)算成本高 |
| 4.不能更好地表征非線性問題 |
2.2 MMC簡介
? ? 對于LDA來說,當(dāng)數(shù)據(jù)量較小時(shí),很難保證類內(nèi)散射矩陣是非正交的,這就是表7中提到的小樣本問題。為了克服LDA面臨的小樣本問題,研究人員提出了各種解決方案,如PCA+LDA算法、零空間LDA算法(NLDA)、正交LDA、完全LDA(CLDA)和Maxi- mum Margin Criterion(MMC)。在這些算法中,MMC是比較簡單和著名的算法之一。
? ? MMC以類間散射矩陣的跡與類內(nèi)散射矩陣的跡之差作為判別標(biāo)準(zhǔn),并在此基礎(chǔ)上得到一個(gè)有效的投影軸,使不同類的樣本具有更好的可分離性。因此,MMC不需要解決類內(nèi)散射矩陣的逆矩陣。這樣,MMC在理論上就避免了由于類內(nèi)散射矩陣的奇異性而導(dǎo)致的LDA無法解決的問題,從而提高了算法的效率。如上所述,優(yōu)化問題被重新定義為公式(14),其他步驟和推導(dǎo)與經(jīng)典LDA基本相同。?
3.正則化
3.1 分類(擬合)問題
? ? 回顧一下模型訓(xùn)練的過程,模型參數(shù)的訓(xùn)練實(shí)際上是一個(gè)不斷迭代的過程,以找到一個(gè)適合數(shù)據(jù)集的方程。但是,在擬合過程中,根據(jù)模型擬合程度的不同,有三種擬合情況:欠擬合、擬合和過擬合。以分類問題為例,擬合問題的可視化效果如圖7所示,而表8則分析了各種擬合情況的定義、原因和解決辦法:
圖7. 對分類問題的不同擬合情況的討論?
?Tips:其中左圖為欠擬合,中圖為(適當(dāng))擬合,右圖為過擬合。
表8?欠擬合和過擬合的分析
| 欠擬合 | 過擬合 | |
| 理由 | 1.訓(xùn)練樣本數(shù)量少 2.模型復(fù)雜度低 3.在參數(shù)收斂前停止循環(huán) | 1.數(shù)據(jù)噪音太大 2.特征太多 3.模型太復(fù)雜 |
| 解決方案 | 1.增加樣本的數(shù)量 2.增加模型參數(shù)以提高模型的復(fù)雜性 3.增加循環(huán)次數(shù) 4.檢查模型是否因?yàn)楦邔W(xué)習(xí)率而無法收斂 | 1.清理數(shù)據(jù) 2.減少模型參數(shù),降低模型的復(fù)雜性 3.增加懲罰因子,保留所有的特征,但減少參數(shù)的大小 |
3.2 正則化簡介
? ? 通過3.3.1中對擬合問題的分析,可以加入一個(gè)正則化項(xiàng)來防止模型的過擬合。正則化是給成本函數(shù)增加一個(gè)約束條件,限制其高階參數(shù)的大小不至于太大,從而提高模型效果的一種方法。對于不同的算法和模型,正則化項(xiàng)的類型也不同,包括L1正則化、L2正則化、半監(jiān)督正則化等。在本小節(jié)中,我們以正則化LDA為例,分析正則化項(xiàng)如何優(yōu)化算法和模型。
? ? 對于正則化LDA(RDA),實(shí)質(zhì)上是在原目標(biāo)函數(shù)中加入人為定義的參數(shù)(L2正則化項(xiàng)),以此來限制散點(diǎn)矩陣的大小,以達(dá)到更好的分離性和實(shí)驗(yàn)效果,RDA的優(yōu)化函數(shù)可描述為公式(15),優(yōu)化問題的推導(dǎo)和算法流程與LDA基本相同。
4.核方法
4.1 線性降維的不足
如二、2所述,線性降維一般是直接在有限投影軸的低維空間中尋找高維空間數(shù)據(jù)的最優(yōu)子空間。然而,在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的實(shí)際任務(wù)中,數(shù)據(jù)往往很難完全滿足完全的線性分布,此時(shí)線性降維的效果較差。除了上文中提到的流形學(xué)習(xí)外,另一種優(yōu)化線性算法的方法是核方法。
4.2 核方法簡介
? ? 核方法提出的動(dòng)機(jī)是為了解決分類任務(wù)中的線性不可分性問題,其核心理念是通過特定的核函數(shù)?:x→F將數(shù)據(jù)映射到高維的希爾伯特空間,然后在這個(gè)新的特征空間中執(zhí)行算法,從而降低任務(wù)的難度,提高原算法的效果。在Hilbert空間中,可以用內(nèi)積k(x_i ,x_j)=?(x_i )·?(x_j )來代替顯式映射,一個(gè)簡單的核方法的例子如圖8所示:
圖8 核方法的簡單例子?
? ? 對于機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的不同任務(wù),如果使用核方法進(jìn)行優(yōu)化,選擇一個(gè)合適的核函數(shù)是至關(guān)重要的,如圖9所示,幾種經(jīng)典的核函數(shù)具有很強(qiáng)的泛化性能,是常用的。
圖9 幾種經(jīng)典的核函數(shù)
四、降維框架
? ? 經(jīng)過第二節(jié)和第三節(jié)對各種降維算法及其優(yōu)化的分析,我們不難發(fā)現(xiàn),雖然不同的降維方法不斷被提出和優(yōu)化,但在原理上存在較大的差異,這就增加了學(xué)習(xí)、理解和應(yīng)用的難度。針對這一問題,"框架思維 "已經(jīng)被研究者們所研究,因此,降維框架的設(shè)計(jì)和構(gòu)建已經(jīng)成為機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的一個(gè)熱門研究方向。
? ? 本節(jié)將通過介紹兩種經(jīng)典的降維框架,即圖嵌入和半監(jiān)督降維框架,以及不同框架下統(tǒng)一的新的優(yōu)化問題和各降維算法的新表達(dá)方式,并以降維框架為平臺,開發(fā)新算法或優(yōu)化現(xiàn)有算法,來介紹和分析降維框架的設(shè)計(jì)和構(gòu)建方法。?
1.圖嵌入框架
? ? 為了統(tǒng)一不同動(dòng)機(jī)的降維算法,提出了圖嵌入降維框架,大多數(shù)降維算法都可以在這個(gè)共同的框架內(nèi)重新表述,每個(gè)算法都可以被認(rèn)為是直接的圖嵌入或其線性/核/張量擴(kuò)展,用于描述數(shù)據(jù)集的某些期望的統(tǒng)計(jì)或幾何屬性,同時(shí)揭示了降維方案的基本優(yōu)點(diǎn)和缺點(diǎn)。此外,圖形嵌入框架可以作為開發(fā)新的降維算法的通用平臺。
1.1 圖嵌入視角下的降維
? ? 與圖1中描述的經(jīng)典降維過程不同,從圖嵌入的角度來看,降維的核心是構(gòu)造一個(gè)本征圖來描述數(shù)據(jù)中有價(jià)值的統(tǒng)計(jì)或幾何特征,以及一個(gè)懲罰圖來描述數(shù)據(jù)中需要抑制的統(tǒng)計(jì)或幾何特征,然后通過圖嵌入對應(yīng)的圖保全準(zhǔn)則(目標(biāo)函數(shù))來實(shí)現(xiàn)數(shù)據(jù)的降維,如公式(16)。對于上一節(jié)提到的線性方法和核方法,以及沒有提到的張量方法,都有相應(yīng)的圖嵌入版本,主要區(qū)別在于構(gòu)建本征圖和懲罰圖的方式不同。
其中,W是相似度矩陣,每個(gè)元素衡量一對頂點(diǎn)的相似度。L是一個(gè)拉普拉斯矩陣,在圖嵌入的角度新定義為公式(17)。 d是一個(gè)常數(shù),B是一個(gè)約束矩陣,定義為避免目標(biāo)函數(shù)的瑣碎解。b通常是一個(gè)對角線矩陣,用于尺度歸一化,也可能是一個(gè)拉普拉斯矩陣,用于懲罰圖Gp。
1.2 不同形式的圖嵌入?
? ? 為了適應(yīng)不同類型的降維方法,圖嵌入除了上文提到的直接圖嵌入外,還有線性化、內(nèi)核化和張量化三種不同的形式,不同的形式有不同但相似的保圖準(zhǔn)則(目標(biāo)函數(shù))。
? ? 圖嵌入的線性化假定每個(gè)頂點(diǎn)的向量表示是由圖頂點(diǎn)的原始特征向量表示線性投影出來的,圖嵌入的內(nèi)核化在線性圖嵌入算法上應(yīng)用內(nèi)核技巧來處理非線性分布的數(shù)據(jù)。最后,在圖嵌入的張量化中,原始頂點(diǎn)被編碼為任意階的一般張量,并應(yīng)用多線性代數(shù)方法將直接圖嵌入擴(kuò)展到基于張量表示的多線性情況。其中,框架的統(tǒng)一表達(dá)如圖10所示,表9中總結(jié)了經(jīng)典降維算法在圖嵌入角度的新表達(dá)。?
?圖10 圖嵌入框架的統(tǒng)一表達(dá)
表9 流行降維算法的常見圖嵌入視圖
注意,D類型代表直接圖嵌入,而L、K和T分別表示圖嵌入的線性化、內(nèi)核化和張量化。?
1.3 圖嵌入平臺
? ? 除了統(tǒng)一具有不同動(dòng)機(jī)和過程的各種降維算法外,圖嵌入框架還可以作為開發(fā)新降維算法的通用平臺。下面以圖嵌入平臺開發(fā)MFA(邊際費(fèi)雪分析)為例。
? ? 為了克服LDA在處理非高斯分布數(shù)據(jù)時(shí),不同類的可分離性不能很好地用類間散布來描述,從而影響實(shí)驗(yàn)結(jié)果的情況,MFA應(yīng)運(yùn)而生。MFA是基于圖保留準(zhǔn)則開發(fā)的算法,其核心是利用圖嵌入平臺設(shè)計(jì)一個(gè)表征類內(nèi)緊湊性的內(nèi)在圖和一個(gè)表征類間分離性的懲罰圖,MFA的具體構(gòu)造如圖11所示,算法流程如表10所述:
圖11. MFA的本征圖和懲罰圖的相鄰性
MFA算法流程
| 1.使用PCA的預(yù)測數(shù)據(jù) |
| 2.構(gòu)建類內(nèi)緊湊性圖和類間可分離性圖 |
| 3.應(yīng)用MFA線性化圖保全準(zhǔn)則并解決 |
| 4.輸出投影矩陣 |
2.半監(jiān)督降維框架
? ? 上文提到的圖嵌入降維框架從線性、核化和張量的角度統(tǒng)一了不同類型的降維方法,并為開發(fā)新算法提供了一個(gè)平臺。而半監(jiān)督降維框架顧名思義,從監(jiān)督/非監(jiān)督的角度統(tǒng)一了不同的降維方法,并提出了相應(yīng)算法的半監(jiān)督版本及其核化。
? ? 半監(jiān)督方法是指利用部分標(biāo)記數(shù)據(jù)的標(biāo)記信息,通過標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的組合來表示每個(gè)探測向量。它有效地避免了監(jiān)督方法不使用數(shù)據(jù)的標(biāo)簽信息、效果普遍較差的缺點(diǎn),也節(jié)省了監(jiān)督學(xué)習(xí)需要標(biāo)記所有數(shù)據(jù)的時(shí)間和精力。該框架的核心是基于正則判別分析和正則最小二乘法之間的關(guān)系,它可以在保留局部流結(jié)構(gòu)的情況下判別多類子流形式。接下來我們通過介紹方程(18)中二元分類情況下LS的正則化框架來介紹半監(jiān)督的降維框架。
? ? 其中,函數(shù)由一組冗余基表示(本質(zhì)上是原始優(yōu)化問題),可應(yīng)用于歐幾里得空間和再生希爾伯特空間。‖f‖_T^2是函數(shù)空間的Tikhonov正則化項(xiàng)(L2),‖f‖_M^2是基于流形分析的正則化項(xiàng)(半監(jiān)督正則化項(xiàng))。
? ? 在半監(jiān)督降維框架中,最重要的是半監(jiān)督正則化的推導(dǎo)和解決。為了在其中同時(shí)使用有標(biāo)簽和無標(biāo)簽的信息,鄰接矩陣M和歸一化拉普拉斯圖L被用來定義加權(quán)圖。如圖12所示,||f||_M^2被導(dǎo)出并求解。
圖12. 半監(jiān)督正則化項(xiàng)的推導(dǎo)
構(gòu)造出x后,可以通過將其加入到原來的降維算法的目標(biāo)函數(shù)中來解決,算法過程基本相同。
五、實(shí)驗(yàn)
? ? 在本節(jié)中,我們將把前面提到的降維算法和降維框架應(yīng)用到機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的一個(gè)真實(shí)任務(wù)中(以人臉識別為例),通過對實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析,說明不同降維算法和框架之間的聯(lián)系和區(qū)別,以及對其算法效果的對比。
? ? 在這個(gè)實(shí)驗(yàn)中,我們使用了以下人臉數(shù)據(jù)集,三個(gè)數(shù)據(jù)集的典型人臉如圖13所示。
? ? AT&T人臉數(shù)據(jù)。有40個(gè)不同的個(gè)體,每個(gè)個(gè)體有10個(gè)主題。每個(gè)人臉圖像被調(diào)整為56 x 46像素,有256個(gè)灰度等級。這些圖像是在不同時(shí)間拍攝的,改變了燈光、面部表情和面部細(xì)節(jié)。
? ? 耶魯大學(xué)(Yale)的人臉數(shù)據(jù)。這個(gè)數(shù)據(jù)集包含15個(gè)人的165張圖像。每張臉的圖像被調(diào)整為69 x 58像素,有256個(gè)灰度等級。這些圖像是在更多的配置下拍攝的,即照明(中光、左光和右光)、面部表情(快樂、正常、悲傷、困倦、驚訝和眨眼)以及帶或不帶眼鏡。
? ? UMIST臉部數(shù)據(jù)。這組數(shù)據(jù)包含20個(gè)人的564張圖像。每張臉部圖像都被調(diào)整為112 x 92像素,有256個(gè)灰度等級。這些圖像涵蓋了從側(cè)面到正面的一系列姿勢。
圖13. 人臉數(shù)據(jù)的例子。(a) AT&T的人臉例子;(b) 耶魯?shù)娜四樌?#xff1b;(c) UMIST的人臉例子?
? ? 我們在上述三個(gè)數(shù)據(jù)集上測試了前文提到的降維算法及其優(yōu)化和算法框架,實(shí)驗(yàn)中分別探討了不同降維數(shù)、不同訓(xùn)練集和測試集比例、不同數(shù)據(jù)集對算法和框架的影響,實(shí)驗(yàn)結(jié)果列舉并繪制如下。
? ? 其中,每個(gè)實(shí)驗(yàn)平均進(jìn)行10次,以平均人臉識別率為結(jié)果,每次都進(jìn)行交叉驗(yàn)證,以保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,然后通過幾何統(tǒng)計(jì)和多維度比較,對實(shí)驗(yàn)結(jié)果進(jìn)行分析并提出實(shí)驗(yàn)結(jié)論。
表11 不同訓(xùn)練集和測試集比例對降維方法的影響(AT&T)
請注意,括號內(nèi)的數(shù)字是降維后效果最好的相應(yīng)特征維度。對于PCA+LDA和PCA+MFA,第一個(gè)數(shù)字是PCA步驟中保留的能量百分比,對于KDA和KMFA,數(shù)字是內(nèi)核參數(shù)序列號,對于DATER和TMFA,兩個(gè)數(shù)字分別是降維后的行和列號。
圖14?不同降維數(shù)對降維方法的影響(Yale)?
表12 不同數(shù)據(jù)集對降維方法的影響
| AT&T | Yale | UMIST | |
| PCA | 89.85% | 77.81% | 87.81% |
| LDA | 90.88% | 90.24% | 90.18% |
| LLE | 90.11% | 89.78% | 90.56% |
| 2DPCA | 90.88% | 86.8% | 90.24% |
| MMC | 91.44% | 90.87% | 92.71% |
| MFA | 96.0% | 94.8% | 95.2% |
| SSLDA | 92.66% | 93.02% | 93.17% |
? ? 根據(jù)表11、圖14和表12中不同因素對不同降維算法和框架的影響分析,可以得出以下幾個(gè)結(jié)論:
(1)對于不同的降維算法,隨著訓(xùn)練集與測試集比例的增加,算法可以獲得更多的信息,實(shí)驗(yàn)效果(人臉識別率)也相應(yīng)提高。
(2)對于不同的降維算法,隨著降維次數(shù)的增加,算法可以保留更多的信息(有上限),實(shí)驗(yàn)效果(人臉識別率)先上升后穩(wěn)定或逐漸波動(dòng)。
(3)對于不同的降維算法,在不同的數(shù)據(jù)集下,效果差異波動(dòng)區(qū)間比較大,在不同的降維問題上要結(jié)合多種因素來考慮使用降維方法和框架。
(4) 總的來說,對于大多數(shù)降維的數(shù)據(jù)集,優(yōu)化后的算法都顯示出相對于原始算法的優(yōu)越性,并且在實(shí)驗(yàn)中驗(yàn)證了框架算法的正確性。?
六、結(jié)論
? ? 在本文中,我們總結(jié)了機(jī)器學(xué)習(xí)和模式識別領(lǐng)域的經(jīng)典降維算法和降維框架。降維算法部分包括各種經(jīng)典算法的原理、公式推導(dǎo)和算法過程,以及它們在線性降維、流動(dòng)學(xué)習(xí)、核方法(監(jiān)督、無監(jiān)督和半監(jiān)督)中的優(yōu)化算法。
? ? 降維框架部分將各經(jīng)典降維方法分別統(tǒng)一在圖嵌入框架和半監(jiān)督框架這兩個(gè)經(jīng)典降維框架的視角下,并以此探討和分析了降維框架的設(shè)計(jì)和構(gòu)建方法,分析了以降維框架為平臺開發(fā)新算法的步驟。
? ? 此外,通過降維算法和降維框架在不同任務(wù)的數(shù)據(jù)集實(shí)驗(yàn)中的應(yīng)用以及實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析比較,說明了各算法和框架之間的聯(lián)系和區(qū)別。
七、主要參考文獻(xiàn)
1.周志華《機(jī)器學(xué)習(xí)》
[1]?Yangqiu Song, “A unified framework for semi-supervised dimensionality reduction”, Jan 2008.
[2] X. He, S. Yan, Y. Hu, P. Niyogi, H. Zhang, Face recognition using laplacianfaces, IEEE Trans. Pattern Anal. Mach. Intell. 27 (3) (2005) 328–340.
[3] J. Ye, Least squares linear discriminant analysis, in: International Conference on Machine Learning, 2007, pp. 1087–1093.
[4] W. Du, K. Inoue, K. Urahama, Dimensionality reduction for semisupervised face recognition, in: Proceedings of the Fuzzy Systems and Knowledge Discovery, 2005, pp. 1–10.
[5] D. Zhang, Z.-H. Zhou, S. Chen, Semi-supervised dimensionality reduction, in: SIAM Conference on Data Mining (SDM), 2007.
[6]?P.N. Belhumeur, J.P. Hespanha, D.J. Kriegman, Fisherfaces: recognition using class specific linear projection, IEEE Trans. Pattern Anal. Mach. Intell. 19 (7) (1997) 711–720.
[7]?A. Batur and M. Hayes, “Linear Subspaces for Illumination Robust Face Recognition,” Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 296-301, Dec. 2001.
[8]?I. Joliffe, Principal Component Analysis. Springer-Verlag, 1986.
[9]?A.M. Martinez and A.C. Kak, “PCA versus LDA,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 23, no. 2, pp. 228-233, Feb. 2001.
[10]?Shuicheng Yan, Member “Graph Embedding and Extensions: A General Framework for?Dimensionality Reduction, ”IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 29, NO. 1, JANUARY 2007
[11] K.-R. Mu¨ller, S. Mika, G. Ra¨tsch, K. Tsuda, and B. Scho¨lkopf, “An Introduction to Kernel-Based Learning Algorithms,” IEEE Trans. Neural Networks, vol. 12, no. 2, pp. 181-201, 2001.
[12] M.H. Yang, “Kernel Eigenfaces vs. Kernel Fisherfaces: Face Recognition Using Kernel Methods,” Proc. Fifth IEEE Int’l Conf. Automatic Face and Gesture Recognition, pp. 215-220, May 2002.
[13] P.N. Belhumeur, J.P. Hespanha, and D.J. Kriengman, “Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 711-720, July 1997.
[14] H. Yu and J. Yang, “A Direct LDA Algorithm for HighDimensional Data—With Application to Face Recognition,”Pattern Recognition, vol. 34, no. 10, pp. 2067-2070, 2001.
[15] L. Sirovich and M. Kirby, “Low-dimensional procedure for the characterization of human faces,” J. Opt. Soc. America A Opt. Image Sci. Vis., vol. 4, no. 3, pp. 519–524, 1987.
[16] M. Turk and A. Pentland, “Eigenfaces for recognition,” J. Cogn. Neurosci., vol. 3, no. 1, pp. 71–86, Jan. 1991.
[17] W.-H. Yang and D.-Q. Dai, “Two-dimensional maximum margin feature extraction for face recognition,” IEEE Trans. Syst., Man, Cybern. B,Cybern., vol. 39, no. 4, pp. 1002–1012, Aug. 2009.
[18] A.J. Smola, S. Mika, B. Scho¨lkopf, and R.C. Williamson, “Regularized Principal Manifolds,” J. Machine Learning Research, vol. 1, pp. 179-209, June 2001.
[19] M. Belkin and P. Niyogi, “Laplacian Eigenmaps for Dimensionality Reduction and Data Representation,” Neural Computation, vol. 15, no. 6, pp. 1373-1396, 2003.
[20] H.S. Seung and D.D. Lee, “The Manifold Ways of Perception,”Science, vol. 290, pp. 2268-2269, Dec. 2000.
[21] T. Lin, H. Zha, and S. Lee, “Riemannian Manifold Learning forNonlinear Dimensionality Reduction,” Proc. Ninth European Conf. Computer Vision, pp. 44-55, May 2006.
[22] M. Balasubramanian, E.L. Schwartz, J.B. Tenenbaum, V. de Silva, and J.C. Langford, “The Isomap Algorithm and Topological Stability,” Science, vol. 295, p. 7a, Jan. 2002.
[23] F.S. Samaria, A.C. Harter, Parameterisation of a stochastic model for human face identification, in: IEEE Workshop on Applications of Computer Vision, 1994, pp. 138–142.
[24] A. Georghiades, P. Belhumeur, D. Kriegman, From few to many: Illumination cone models for face recognition under variable lighting and pose, IEEE Trans. Pattern Anal. Mach. Intell. 23 (6) (2001) 643–660.
[25] D. Graham, N. Allinson, Characterizing virtual eigensignatures for general purpose face recognition, Face Recognition: From Theory to Appl. 163 (1998) 446–456.
總結(jié)
以上是生活随笔為你收集整理的机器学习——经典降维算法与框架综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2022/10/07
- 下一篇: 香水白皮书指出,中国香水消费客单价远超美