[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程
圖像識(shí)別任務(wù)面臨著諸多挑戰(zhàn), 這使得它自計(jì)算機(jī)視覺(jué)領(lǐng)域1966年誕生以來(lái)就成為一個(gè)十分活躍的子領(lǐng)域. 本文將簡(jiǎn)要討論圖像識(shí)別問(wèn)題的挑戰(zhàn)以及為了應(yīng)對(duì)這些挑戰(zhàn)而使用的數(shù)據(jù)驅(qū)動(dòng)過(guò)程.
1. 圖像分類(lèi)問(wèn)題的挑戰(zhàn)
雖然從圖像中識(shí)別一個(gè)對(duì)象對(duì)人類(lèi)來(lái)說(shuō)非常的簡(jiǎn)單,?但圖像識(shí)別對(duì)計(jì)算機(jī)來(lái)說(shuō)是一項(xiàng)極具挑戰(zhàn)性的工作.?在計(jì)算機(jī)內(nèi), 圖像是由一個(gè)很大三維數(shù)組表示的. 比如一張 1024 * 768 的圖像, 它擁有R, G, B三個(gè)分量, ?因此, 這張圖像有 1024 * 768 * 3 = 2,359,296 個(gè)像素, 每個(gè)像素是一個(gè)0(黑)到255(白)之間的整數(shù).?
這種現(xiàn)象, 稱為語(yǔ)義鴻溝.?圖像分類(lèi)的任務(wù)是將這兩百萬(wàn)個(gè)數(shù)字映射到一個(gè)標(biāo)記, 比如``貓''.
除了語(yǔ)義鴻溝之外, 圖像識(shí)別還有其他的一些挑戰(zhàn), 見(jiàn)上圖:?
- 視角變化. 一個(gè)相同的目標(biāo)相對(duì)攝像機(jī)可以有不同的朝向.
- 尺度變化. 不僅是占據(jù)圖像的相對(duì)大小, 目標(biāo)在真實(shí)世界的大小也會(huì)發(fā)生變化.
- 形變. 許多目標(biāo)并不是剛體, 有時(shí)會(huì)有很極端的形變.
- 遮擋. 目標(biāo)可能被遮擋, 因此只有一小部分是可見(jiàn)的.
- 光照改變. 光照會(huì)對(duì)像素值的大小產(chǎn)生巨大的變化.
- 背景融合. 目標(biāo)可能會(huì)和背景混為一體, 使得它非常難以被認(rèn)出.
- 類(lèi)內(nèi)變化. 相同類(lèi)的不同個(gè)體之間可能會(huì)變的完全不同.
2.?數(shù)據(jù)驅(qū)動(dòng)過(guò)程
我們?cè)撛鯓訉?xiě)出一個(gè)算法對(duì)圖像進(jìn)行分類(lèi)呢??和寫(xiě)出一個(gè)排序算法不同, 我們不知道如果通過(guò)指定一系列識(shí)別規(guī)則的方法來(lái)識(shí)別圖像中的目標(biāo)并且能應(yīng)對(duì)上述的這些挑戰(zhàn).?回想我們?nèi)祟?lèi)能對(duì)圖像內(nèi)容進(jìn)行有效的識(shí)別, 是因?yàn)槲覀冎耙呀?jīng)積累了許多經(jīng)驗(yàn), 通過(guò)對(duì)經(jīng)驗(yàn)的利用, 從而對(duì)新情況做出判斷.
在計(jì)算機(jī)系統(tǒng)中, 經(jīng)驗(yàn)通常是以數(shù)據(jù)的形式存在.?我們將提供給計(jì)算機(jī)每個(gè)類(lèi)別的許多實(shí)例(examples), 它們組成了訓(xùn)練集(training set),?利用學(xué)習(xí)算法(learning algorithms)從訓(xùn)練集中產(chǎn)生分類(lèi)器(classifier)}或模型(model).?在面對(duì)新情況時(shí)(例如看到一張以前未出現(xiàn)的圖像), 模型會(huì)提供相應(yīng)的判斷.?這個(gè)過(guò)程, 叫做數(shù)據(jù)驅(qū)動(dòng)過(guò)程.?
總結(jié)
以上是生活随笔為你收集整理的[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [深度学习基础] 2. 线性分类器
- 下一篇: 深度学习之caffe1——软件配置与测试