支持向量机的近邻理解:图像二分类为例(1)
前言:
??????? 機(jī)器學(xué)習(xí)在是否保留原始樣本的層面劃分為兩類:參數(shù)學(xué)習(xí)和非參數(shù)學(xué)習(xí)。參數(shù)學(xué)習(xí)使用相對固定框架,把樣本分布通過訓(xùn)練的方式回歸到一個使用參數(shù)描述的數(shù)學(xué)模型里面,最終使用的是歸納方法;非參數(shù)模型保留了原始樣本或者原始樣本的其他空間轉(zhuǎn)化形式,訓(xùn)練過程保留全部或者部分樣本,最終使用的方法類似于演繹。
??????? svm方法偏向于非參數(shù)模型方法,使用的是精簡—泛化模式。
貝葉斯算法:
??????? 在類條件概率密度和先驗概率已知(或可以估計)的情況下,通過貝葉斯公式比較樣本屬于兩類的后驗概率,將類別決策為后驗概率大的一類。
?? ? ?? 貝葉斯決策的的目的是 最小化總體誤差率的平均期望。
??????? 貝葉斯決策包含了大量不可探測(或刻意隱瞞)的事實(shí),面對的是無窮的數(shù)據(jù)泛化空間,以最小化總體誤差率的平均期望本質(zhì)地實(shí)現(xiàn)強(qiáng)泛化性,是一個弱假設(shè)的決策方式。
過擬合與欠擬合:
???????? 過擬合與欠擬合有多種表達(dá)方式。
????? ?? 實(shí)驗性的定義: 模型在測試集上的性能普遍超過驗證集合的性能,意味著模型的泛化能力較差,出現(xiàn)了過擬合。這是一個統(tǒng)計機(jī)器學(xué)習(xí)給出的普遍接受的定義,畢竟實(shí)驗是檢驗真理的唯一標(biāo)準(zhǔn)。
??????? 這個定義與教科書上的多項式擬合的闡述過擬合的方式?jīng)]有任何特定的關(guān)系。強(qiáng)試驗意味著弱假設(shè),若把所有的事情交給試驗,那么機(jī)器學(xué)習(xí)的專家還需要做些什么?把所有的東西都交給一個模型,那么這個強(qiáng)模型是從何而來?
??????? 這就引入了機(jī)器學(xué)習(xí)的歸納學(xué)習(xí)本質(zhì),從數(shù)據(jù)中學(xué)習(xí)規(guī)律(規(guī)則),以規(guī)則集合來構(gòu)建模型,進(jìn)而驗證集來驗證規(guī)律是否合理。從數(shù)據(jù)中學(xué)習(xí)規(guī)律是機(jī)器學(xué)習(xí)的任務(wù),學(xué)習(xí)到的規(guī)律是合理的嗎?進(jìn)行驗證集試驗是一個實(shí)驗性的方法,從構(gòu)建規(guī)則之初,已經(jīng)暗含引入的一個模式:由數(shù)據(jù)和規(guī)則期望構(gòu)建的假設(shè)空間。
??????? 由數(shù)學(xué)期望構(gòu)建的假設(shè)空間,來理解教科書上的解釋多項式過擬合的闡述內(nèi)容。
??????? 從數(shù)據(jù)中學(xué)習(xí)規(guī)則,抽象為規(guī)則集合,構(gòu)建為模型。若規(guī)則集合適用于驗證集,則意味著泛化成功,若不適用于驗證集,則出現(xiàn)了過擬合。
假設(shè)空間:
??????? 一個古老的哲學(xué)原理:世界并不是以小包的形式來到我們面前,除非遍歷整個空間,任何訓(xùn)練得到的模型都是過擬合的。面對學(xué)習(xí)問題,首先面對這一個空間的認(rèn)知問題,對空間結(jié)構(gòu)的認(rèn)識來自于接口,而全面的認(rèn)識來自于遍歷。
??????? 在認(rèn)識一個未知空間之前,一般的套路是由接口獲取的數(shù)據(jù)對這個空間進(jìn)行簡單假設(shè),迭代修改理解規(guī)則,最后到遍歷。
圖像二分類問題:
???????? 在圖像識別領(lǐng)域,灰度圖像被稱為傳說中的2維張量,任意圖像為由所有二類圖像構(gòu)成的這個二維張量空間內(nèi)的一個點(diǎn)。對于簡單的二分類問題,學(xué)習(xí)需要做的是建立一個模型,可以把二維張量空間內(nèi)的數(shù)據(jù)集塞入這個模型,壓縮到一維張量空間內(nèi)的一維向量之中的兩個點(diǎn)上。這就是傳說中的壓縮映射,也叫壓縮hash。
??????? 假設(shè)空間:所有能假設(shè)到的圖像在二維張量空間可遍歷到的范圍。
??????? 特征提取:由人類專家完成圖像屬性歸納,把圖像的特征顯式的歸結(jié)為一維張量空間的n維向量上,被稱為特征提取。
??????? 特征空間:由所有可生成的n維向量可遍歷到的向量空間,教科書稱之為特征空間。
??????? SVM模型面對的問題:模型面對的問題是模型在特征空間中的泛化問題。
一、線性可分性
???????? 函數(shù)集的VC維:https://en.wikipedia.org/wiki/VC_dimension
???????? VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大),遺憾的是,目前尚沒有通用的關(guān)于任意函數(shù)集VC維計算的理論,只對一些特殊的函數(shù)集知道其VC維。例如在N維空間中線性分類器和線性實(shí)函數(shù)的VC維是N+1。
???????? 線性可分:根據(jù)模式識別教材理解,在二維空間中二分類線性可分意味著一條直線可以把兩類樣本完全分開。
?????????????????? ? ??????? 在二維向量空間中,特征空間為集合S.<X,Y> 可遍歷的二維向量任意位置。假設(shè)空間為假設(shè)的所有樣本可遍歷的二維向量空間。
???????????????????????????? 線性可分即為存在一條直線 y=Ax+B 使 集合S.<X,Y> 可完全劃分為兩類。
二、線性可分的近鄰描述
???????? 近鄰法在一維向量空間中用于分類有直觀可驗證效果。A和B為邊界樣本,分類超平面的理想形式為 一維點(diǎn)的坐標(biāo):(A+B)/2 。根據(jù)近鄰原則,C為A類。
???? ? ? 在二維向量空間中,線性可分即為存在一條直線 y= Ax+B 使 集合S.<X,Y> 可完全劃分為兩類。此直線為可劃分集合的超平面。
紅色直線為超平面:y= Ax+B
?????????? 對于一個完全可分的二維向量空間中的集合,分類超平面可以不止一條。根據(jù)近鄰原則,最合適的超平面為中間的黑色直線,在黑色直線左側(cè)的點(diǎn)離藍(lán)色邊界集合構(gòu)成的直線較近,直覺上應(yīng)該劃分為藍(lán)色集合。
??????? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 此圖直接使用了SVM的論述介紹,直接借用了文章中的圖;
????????????? ? ? ? ? ? ? ? ? ? ?? ??? 鏈接地址:支持向量機(jī)(SVM)算法
三、壓縮近鄰法
??????? 模式識別教材里面闡述方法,壓縮近鄰法使用了1968年提出的CONDENSE算法,可以在不犧牲分類準(zhǔn)確度的前提下大大壓縮近鄰法決策時的訓(xùn)練樣本數(shù)目。通過啟發(fā)式方法尋找用較少的樣本代表集合中的分類信息。剔除離邊界遠(yuǎn)的樣本是迭代尋找邊界的重要思想。
??????? 壓縮近鄰法隱式或者顯示地使用了樣本間的歐式距離信息,在維度較高,歐式距離可表示性變差,是否可以使用一種新的近鄰表示方式。
總結(jié)
以上是生活随笔為你收集整理的支持向量机的近邻理解:图像二分类为例(1)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TikTok 东南亚月活用户已超 3 亿
- 下一篇: 旺影速转如何为视频添加水印?旺影速转为视