无监督学习:无监督降维
生活随笔
收集整理的這篇文章主要介紹了
无监督学习:无监督降维
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1.前言
如果輸入樣本x的維數(shù)增加的話,不論是什么機(jī)器學(xué)習(xí)算法,其學(xué)習(xí)時間都會增加,學(xué)習(xí)過程也會變得更加困難。例如,假設(shè)在一維空間的{0,1}區(qū)間里有5個訓(xùn)練樣本。以相同的密度在d次維空間里配置相同種類的訓(xùn)練樣本的話,最終的樣本數(shù)目就達(dá)到了5^d個。如下圖所示:高維空間的一個例子。當(dāng)維數(shù)d很大的時候,收集并計算多達(dá)5^d個的訓(xùn)練樣本是相當(dāng) 困難的。因此,在高維空間中,訓(xùn)練樣本也經(jīng)常已悉數(shù)的方式進(jìn)行配置 即便維數(shù)d=10 ,樣本總數(shù)也已經(jīng)高達(dá)5^10(≈10000000)了。收集并計算這么多的訓(xùn)練樣本,是一件相當(dāng)困難的事情。因此,在高維空間里,訓(xùn)練樣本也經(jīng)常以稀疏的方式加以配置。 另外,高維空間也不如低維空間那樣容易給人直觀的直覺。 綜上,高維數(shù)據(jù)的處理是相當(dāng)困難的,一般稱為維數(shù)災(zāi)難。為了使機(jī)器學(xué)習(xí)算法從維數(shù)災(zāi)難中解放出來,一般采用的有效方法是保持輸入數(shù)據(jù)中包含的所有信息,對其維數(shù)進(jìn)行削減。 本篇博客著眼于無監(jiān)督的降維方法。
2.線性降維原理
無監(jiān)督降維的目的,是把高維的訓(xùn)練輸入樣本{xi}變換為低維的訓(xùn)練樣本{zi},并在降維后還能盡可能的保持其原本包含的信息。通過xi的線性變換求解zi的時候,即使用維數(shù)為m*d的投影矩陣T求解zi。公式為:線性降維,使用長方形的矩陣T進(jìn)行降維,與向局部線性空間的投影相對應(yīng) 為了簡便起見,假定訓(xùn)練輸入樣本{xi}的平均值為0.
如果平均值不是零的話,則預(yù)先減去平均值,使訓(xùn)練輸入樣本的平均值保持為零。(中心化)
數(shù)據(jù)的中心化
3.主成分分析
主成分分析法,是盡可能地忠實再現(xiàn)原始數(shù)據(jù)的所有信息的降維方法,如下圖:主成分分析是盡可能地忠實再現(xiàn)原始數(shù)據(jù)的所有信息的降維方法 具體而言,就是在降維后的輸入zi是原始訓(xùn)練輸入樣本xi的正投影這一約束條件下,設(shè)計投影矩陣T。讓zi與xi盡可能相似i.zi是xi的正投影這一假設(shè),與投影矩陣T滿足T*T'=Im是等價的,其中,Im是指m*m的單位矩陣。 然而,當(dāng)zi與xi的維度不一樣的時候,并不能直接計算其平方誤差。因此,一般先把m次維的zi通過T'變換到d次維空間,在計算其與xi的距離所有樣本的T'zi(T*T'xi)與xi的平方距離的和,可以通過下式表示:
注意:在線性代數(shù)中,一個n×n矩陣A的主對角線上各個元素的總和被稱為矩陣A的跡(或跡數(shù)),一般記作tr(A)。 其中,C為訓(xùn)練樣本的協(xié)方差矩陣:
綜合以上過程,主成分分析的學(xué)習(xí)過程可以用下式進(jìn)行表示:
這里考慮到矩陣C的固定值的問題
將固定值與相對應(yīng)的固定相良分別表示為λ1≥...≥λd≥0和ξ1≥...≥ξd。 這樣主成分分析的階就可以通過下式求得:
也就是說,主成分分析的投影矩陣,是通過向訓(xùn)練輸入樣本的協(xié)方差矩陣C中的較大的m個固定值所對應(yīng)的固定相良張成德局部空間正投影而得到的。與此相反,通過把較小的固定值所對應(yīng)的固定相良進(jìn)行削減,與原始樣本的偏離就可以達(dá)到最小。 下面展示的是一個主成分分析的實例:
直線表示的是一維的正投影空間 在本例中,通過把d=2次維的數(shù)據(jù)降到m=1次維,使得到的結(jié)果盡可能地在線了原始數(shù)據(jù)的所有信息。 另外,我們必須注意的是,主成分分析中求得的低維{zi},其各個元素質(zhì)檢室無關(guān)聯(lián)的,相互獨立的,也就是說協(xié)方差矩陣是對角矩陣:
4.局部保持投影
局部保持投影利用訓(xùn)練輸入樣本間的相似度信息。訓(xùn)練輸入樣本xi與xi'的相似度用Wi,i'表示。當(dāng)xi與xi'較為相似的時候,Wi,i'為較大的值;當(dāng)xi與xi'不是那么相似的時候,Wi,i'為較小的值。相似度是對稱的。局部保持投影是能夠保護(hù)數(shù)據(jù)中的簇結(jié)構(gòu)的線性降維方法
訓(xùn)練輸入樣本{xi}間相似度的實例 在局部保持投影中,認(rèn)為相似度較高的樣本對的投影也較為相似,以此來決定投影矩陣T。具體而言,就是計算下式的值最小的時候?qū)?yīng)的T:
然而,朝著這個方向求解的話,會得到T=O這樣不證自明的結(jié)果。
為了避免得到這樣退化的解,往往會加一個約束條件:
上式中,X是訓(xùn)練輸入樣本的矩陣,D是以矩陣W的各行元素只和為對角元素的對角矩陣:
下圖表示的是與高斯相似度相對應(yīng)的局部保持投影的實例。在該例中,同樣也是把d=2維的數(shù)據(jù)降到m=1維,使得結(jié)果很好的保留了原始數(shù)據(jù)簇構(gòu)造的信息。
5.核函數(shù)主成分分析
這里介紹通過在核映射方法里引入主成分分析,來進(jìn)行非線性降維的核函數(shù)的主成分分析法。即把訓(xùn)練集{xi}通過非線性函數(shù)進(jìn)行變換,在變換后的特征空間里進(jìn)行主成分分析。通過這樣的方法,就可以在原始訓(xùn)練樣本的特征空間中進(jìn)行非線性降維操作。 例如,將普通的直角坐標(biāo)系中的二維輸入向量x=(x1,x2)'通過fun()變換為在極坐標(biāo)系(距原點的距離為r,角度為Θ)中,如下圖所示:使用非線性數(shù)據(jù)進(jìn)行非線性主成分分析實例。 X表示的是樣本;實線是通過主成分分析求得的一維子空間;O是樣本仙子空間的正投影 對原始的二維訓(xùn)練樣本直接進(jìn)行主成分分析,并不能很好滴捕捉到彎曲狀的數(shù)據(jù)分布。而經(jīng)過變換后,在極坐標(biāo)系下,數(shù)據(jù)樣本基本上筆直地串聯(lián)在一起。把特征空間中的主成分分析結(jié)果返回到原始的輸入,就可以很好的捕捉到原始數(shù)據(jù)中彎曲狀的數(shù)據(jù)分布。
總結(jié)
以上是生活随笔為你收集整理的无监督学习:无监督降维的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无监督学习:异常检测与剔除(局部异常因子
- 下一篇: DOM3 textInput事件-sof