日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KNN算法与线性分类器

發(fā)布時(shí)間:2024/9/30 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 KNN算法与线性分类器 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、圖像識(shí)別

1、簡單介紹

圖像識(shí)別的核心問題:矩陣。
圖像識(shí)別的任務(wù)就是給定圖像即矩陣后,對(duì)矩陣去做圖像識(shí)別,以得到一組概率,以此來判斷圖像的所屬類別。

2、不足之處

圖像識(shí)別的困難之處:準(zhǔn)確率一直提升不上去。準(zhǔn)確率提升不了的原因主要有如下幾個(gè):
1、圖片視角不同:每個(gè)事物旋轉(zhuǎn)或者側(cè)視最后的構(gòu)圖都完全不同。
2、圖片尺寸大小不統(tǒng)一:相同內(nèi)容的圖片也可大可小。
3、圖片變形:很多東西處于特殊的情形下,會(huì)有特殊的擺放和形狀。
4、光影等干擾/幻象
5、背景干擾
6、同類內(nèi)的差異:比如同一事物有多種類別,椅子有靠椅、吧椅、餐椅、躺椅等。

3、基本流程

圖像識(shí)別基本流程:
1、輸入:給定K個(gè)類別的N張圖片,作為計(jì)算機(jī)學(xué)習(xí)的訓(xùn)練集。
2、學(xué)習(xí):讓計(jì)算機(jī)逐張圖片地觀察和學(xué)習(xí)。
3、評(píng)估:評(píng)價(jià)計(jì)算機(jī)學(xué)習(xí)的學(xué)習(xí)成果,評(píng)價(jià)的方法是給定一些計(jì)算機(jī)不知道類別的圖片讓它判別,然后再比對(duì)我們已知的正確答案。

二、圖像識(shí)別算法

1、K最近鄰法(KNN)

顧名思義,KNN就是需要找到距離樣本最近的鄰居,那么這時(shí)候就需要有一個(gè)標(biāo)準(zhǔn)去衡量怎樣才算近,所以需要衡量樣本之間的距離。常見的主要有以下三類距離:
1、曼哈頓距離

2、歐式距離

3、余弦距離

有了距離準(zhǔn)則之后,我們可以找到訓(xùn)練集中最近的N個(gè),以他們中最多的類別為結(jié)果。例如從1000張圖片中挑出與樣本圖片最接近的5張,如果在挑出的圖片中有3張是貓,2張是其它,則此樣本圖片就被認(rèn)為是貓。

如上圖是原始數(shù)據(jù),不同的顏色代表不同的類別,NN就是1NN,即每次只找和它最接近的一張圖片,根據(jù)這一張圖片的類別去判定它現(xiàn)在的類別。5NN是K=5的情況,每次挑最近的5個(gè)樣本來做一個(gè)綜合投票,投票最多的結(jié)果就標(biāo)為這個(gè)類型。
N折交叉驗(yàn)證:在使用模型時(shí)幫我們選擇參數(shù)。假設(shè)現(xiàn)在有一份訓(xùn)練集和一份測試集。我們使用KNN算法時(shí)不知道K選擇多少,所以要有一個(gè)方法去判定K選擇多少最合適。數(shù)學(xué)上是沒有合適的公式來幫助我們判定的,我們只能夠通過實(shí)驗(yàn)得到,驗(yàn)證方式就是N折交叉驗(yàn)證。

如上圖所示,例如N=5,就是分成5折,然后輪番的用其中的四折作為真正的訓(xùn)練集,再用第五折做一個(gè)交叉驗(yàn)證即評(píng)估在訓(xùn)練集上拿到的模型在第五折上的效果怎么樣。
交叉驗(yàn)證結(jié)果圖:

KNN做圖像識(shí)別缺點(diǎn):
1、準(zhǔn)確度不高
2、要記錄全部的訓(xùn)練數(shù)據(jù)
3、速度比較慢

2、線性分類器


線性分類器會(huì)有一個(gè)得分函數(shù),例如每張圖片是32323,即總共有3072個(gè)數(shù),線性分類器要做的事情就是把這3072個(gè)數(shù)當(dāng)成x,即x是一個(gè)13072的向量,我們會(huì)給這個(gè)向量x一個(gè)權(quán)重W。例如讓W(xué)=103072。假如最后要判定的類別有10種,如上圖所示,那么得分函數(shù)最后的結(jié)果是一個(gè)10*1的向量。

如上圖所示,如果樣本是一張貓的圖片,而在此權(quán)重下將圖片判定成了一條狗,即說明此權(quán)重不合適。
對(duì)于線性分類器的理解:
1:空間劃分

如上圖,對(duì)于得分函數(shù)f(x,W)=Wx+b,當(dāng)W和b確定后直線也就確定了,就以上圖紅色的直線函數(shù)來說來說,當(dāng)輸入x值代入到紅色直線的函數(shù)后得到的函數(shù)值非常大時(shí),表明在小汽車上方,說明此樣本為小汽車的置信度很高。同樣,取不同的W,會(huì)得到不同的直線,當(dāng)在其中一條直線上得分非常高時(shí)表明接近某一類。
空間劃分的效果并不是太好,因?yàn)樗J(rèn)為這些東西都是線性可分的。
2、模板匹配

如上圖所示,對(duì)于每一個(gè)得分yi_ii?是由yi_ii?=Wi_ii? x+bi_ii? 得到,這時(shí)把x當(dāng)作一個(gè)輸入,Wi_ii?一旦確定后就可以看作是一個(gè)類別的模板,只不過這時(shí)的計(jì)算是像素點(diǎn)與模板之間內(nèi)積的一個(gè)計(jì)算。意思就是輸入x后用不同的Wi_ii?去匹配,看哪個(gè)匹配度高。

損失函數(shù):

前面我們說過貓的圖片識(shí)別過后卻變成的狗,說明W不是一個(gè)合適的權(quán)重,所以需要定義一個(gè)東西去衡量在現(xiàn)在的W和b下的結(jié)果與真實(shí)結(jié)果的差距有多大,損失函數(shù)由此得來。通俗的說就是判斷當(dāng)前的W和b好不好,我們要做的事情就是調(diào)整參數(shù)W,使得映射結(jié)果和實(shí)際類別吻合。
損失函數(shù)有兩種類型:
1、支持向量機(jī)損失
對(duì)于訓(xùn)練集中的第i張圖片xi_ii?,在權(quán)重W下會(huì)有一個(gè)得分函數(shù)f(xi_ii?,W),第j類的得分我們記作f(xi_ii?,W)j_jj?,則在該樣本上的損失我們由下列公式計(jì)算得到:

因?yàn)槭蔷€性模型,因此上式可以簡化成如下圖所示:

假設(shè)我們現(xiàn)在有三個(gè)類別貓、狗和船,而得分函數(shù)計(jì)算某張圖片的得分為f(xi_ii?,W)=[13,-7,11],實(shí)際的結(jié)果是第一類即這張圖片是一只貓。假設(shè)Δ\DeltaΔ=10,上面的公式把錯(cuò)誤類別都遍歷了一遍,求值加和得到如下:

上述例子損失函數(shù)做的事情就是權(quán)衡自己判斷對(duì)的那一類即貓的得分13與判斷不對(duì)的這兩類得分-7與11相比是不是超出了某個(gè)量級(jí)或者高出了某個(gè)給定的Δ\DeltaΔ

Δ\DeltaΔ是超參數(shù),表明我們希望得分向量里判斷對(duì)的這一類比判斷不對(duì)的一類至少要多出多少,上例子中貓13是判斷對(duì)的那一類,max(0,-7-13+10)=0表明在狗這類上沒有損失,因?yàn)樨埖梅?3比狗得分-7高出了20分,這20分已經(jīng)滿足上訴提出的Δ\DeltaΔ=10分的要求了,所以這一類沒有損失。最后一類船的得分是11,而13只比11多了2,有些接近正確結(jié)果,這時(shí)衡量在船類別上有損失,因?yàn)槲覀儧]有滿足最小間隔為10的要求。
損失函數(shù)2:互熵?fù)p失
對(duì)于訓(xùn)練集中的第i張圖片數(shù)據(jù)xi_ii?,在W下會(huì)有一個(gè)得分結(jié)果向量fyi_{yi}yi?,則損失函數(shù)記作:

或者

其中一般:

上述損失函數(shù)實(shí)際上就是先將得分做了一個(gè)歸一化處理后將得分映射成了概率。例如樣本是貓的話正常概率為[1,0,,,0],而歸一化后的概率為[0.6,0.1,,0.1],互熵?fù)p失做的事情就是權(quán)衡這兩組概率分布之間的差距。

總結(jié)

以上是生活随笔為你收集整理的KNN算法与线性分类器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。