深度学习与计算机视觉(一)图像分类与KNN
- 1、圖像分類與KNN
- 1.1 圖像分類
- 1.1.2 圖像識(shí)別的難點(diǎn):類內(nèi)形變+類間相似**
- 1.1.3 圖像識(shí)別的途徑
- 1.1.4 機(jī)器學(xué)習(xí)解決圖像分類的流程
- 1.2 最近鄰分類器(Nearest Neighbor Classifier)
- 1.2.1 CIFAR-10
- 1.2.2 基于最近鄰的簡單圖像類別判定
- 1.3 k近鄰分類器
- 1.3.1 交叉驗(yàn)證與參數(shù)選擇
- 1.3.2 kNN算法的優(yōu)缺點(diǎn)
- 1、圖像分類與KNN
1、圖像分類與KNN
1.1 圖像分類
對(duì)于一張輸入的圖像,判定其屬于哪個(gè)類別,圖像分類是計(jì)算機(jī)視覺的核心問題之一,且是很多高層視覺任務(wù)的基礎(chǔ)。
1.1.2 圖像識(shí)別的難點(diǎn):類內(nèi)形變+類間相似**
- 視角不同,每個(gè)事物旋轉(zhuǎn)或者側(cè)視最后的構(gòu)圖都完全不同
- 尺寸大小不統(tǒng)一,相同內(nèi)容的圖片也可大可小
- 變形,很多東西處于特殊的情形下,會(huì)有特殊的擺放和形狀
- 光影等干擾/幻象
- 背景干擾
- 同類內(nèi)的差異(比如椅子有靠椅/吧椅/餐椅/躺椅…)
1.1.3 圖像識(shí)別的途徑
就是對(duì)于每個(gè)類別,我們都找一定量的圖片數(shù)據(jù),『喂』給計(jì)算機(jī),讓它自己去『學(xué)習(xí)和總結(jié)』每一類的圖片的特點(diǎn)。
1.1.4 機(jī)器學(xué)習(xí)解決圖像分類的流程
簡單來說,分為三步:
- 輸入:我們的給定K個(gè)類別的N張圖片,作為計(jì)算機(jī)學(xué)習(xí)的訓(xùn)練集
- 學(xué)習(xí):讓計(jì)算機(jī)逐張圖片地『觀察』和『學(xué)習(xí)』
- 評(píng)估:就像我們上學(xué)學(xué)了東西要考試檢測(cè)一樣,我們也得考考計(jì)算機(jī)學(xué)得如何,于是我們給定一些計(jì)算機(jī)不知道類別的圖片讓它判別,然后再比對(duì)我們已知的正確答案。
1.2 最近鄰分類器(Nearest Neighbor Classifier)
只是為了從基礎(chǔ)推進(jìn)而已,和卷積網(wǎng)絡(luò)無關(guān)。
1.2.1 CIFAR-10
CIFAR-10是一個(gè)非常常用的圖像分類數(shù)據(jù)集。數(shù)據(jù)集包含60000張32*32像素的小圖片,每張圖片都有一個(gè)類別標(biāo)注(總共有10類),分成了50000張的訓(xùn)練集和10000張的測(cè)試集。如下是一些圖片示例:
左圖是是個(gè)類別和對(duì)應(yīng)的圖像示例,右圖是給定一張圖像之后,根據(jù)像素距離計(jì)算出來的最近的10張圖像。
1.2.2 基于最近鄰的簡單圖像類別判定
最近鄰的思想:
根據(jù)輸入圖像的像素值,計(jì)算其和訓(xùn)練集中的圖像的距離,找到最近的圖像的類別作為預(yù)測(cè)的類別即可。
最近鄰的缺點(diǎn):
用于圖像分類時(shí)效果很差。
距離度量方式:
L1距離,L2距離,余弦距離等等(scipy)
1.3 k近鄰分類器
將最近鄰擴(kuò)展為最近的N個(gè)臨近點(diǎn),然后統(tǒng)計(jì)出現(xiàn)類別最多的那一類作為預(yù)測(cè)的類別。
1.3.1 交叉驗(yàn)證與參數(shù)選擇
哪些因素會(huì)影響KNN最后的識(shí)別結(jié)果:
- 距離度量方式
- k值的選取
當(dāng)數(shù)據(jù)總量不大的時(shí)候,可以選擇k折交叉驗(yàn)證,也就是將原始數(shù)據(jù)分為k份,輪流使用其中k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為交叉驗(yàn)證數(shù)據(jù),我們可以得到k個(gè)準(zhǔn)確率,取均值作為預(yù)測(cè)準(zhǔn)確率。
1.3.2 kNN算法的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
思路簡單,不需訓(xùn)練
缺點(diǎn):
- 計(jì)算準(zhǔn)確率過程很耗時(shí),因?yàn)橐腿坑?xùn)練集中的圖像都對(duì)比一遍;
- 分類器必須記住全部的訓(xùn)練數(shù)據(jù),因?yàn)橐闅v找近鄰,而任何實(shí)際的圖像訓(xùn)練集上,數(shù)據(jù)量很可能非常大,那么一次性載入內(nèi)存,不管是對(duì)速度還是對(duì)硬件的要求,都是一個(gè)極大的挑戰(zhàn)。
重要的是:我們不是很在乎訓(xùn)練時(shí)間,訓(xùn)練時(shí)間長的話,只有后續(xù)識(shí)別的時(shí)候速度快,效果好即可,但是kNN測(cè)試過程很漫長,后續(xù)的深度神經(jīng)網(wǎng)絡(luò)就是為了解決該問題,其訓(xùn)練時(shí)間長,但是識(shí)別過程很快。
這里寫鏈接內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的深度学习与计算机视觉(一)图像分类与KNN的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十二、主题模型
- 下一篇: 深度学习与计算机视觉(二)线性SVM与S