[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程
圖像識別任務(wù)面臨著諸多挑戰(zhàn), 這使得它自計算機視覺領(lǐng)域1966年誕生以來就成為一個十分活躍的子領(lǐng)域. 本文將簡要討論圖像識別問題的挑戰(zhàn)以及為了應(yīng)對這些挑戰(zhàn)而使用的數(shù)據(jù)驅(qū)動過程.
1. 圖像分類問題的挑戰(zhàn)
雖然從圖像中識別一個對象對人類來說非常的簡單,?但圖像識別對計算機來說是一項極具挑戰(zhàn)性的工作.?在計算機內(nèi), 圖像是由一個很大三維數(shù)組表示的. 比如一張 1024 * 768 的圖像, 它擁有R, G, B三個分量, ?因此, 這張圖像有 1024 * 768 * 3 = 2,359,296 個像素, 每個像素是一個0(黑)到255(白)之間的整數(shù).?
這種現(xiàn)象, 稱為語義鴻溝.?圖像分類的任務(wù)是將這兩百萬個數(shù)字映射到一個標記, 比如``貓''.
除了語義鴻溝之外, 圖像識別還有其他的一些挑戰(zhàn), 見上圖:?
- 視角變化. 一個相同的目標相對攝像機可以有不同的朝向.
- 尺度變化. 不僅是占據(jù)圖像的相對大小, 目標在真實世界的大小也會發(fā)生變化.
- 形變. 許多目標并不是剛體, 有時會有很極端的形變.
- 遮擋. 目標可能被遮擋, 因此只有一小部分是可見的.
- 光照改變. 光照會對像素值的大小產(chǎn)生巨大的變化.
- 背景融合. 目標可能會和背景混為一體, 使得它非常難以被認出.
- 類內(nèi)變化. 相同類的不同個體之間可能會變的完全不同.
2.?數(shù)據(jù)驅(qū)動過程
我們該怎樣寫出一個算法對圖像進行分類呢??和寫出一個排序算法不同, 我們不知道如果通過指定一系列識別規(guī)則的方法來識別圖像中的目標并且能應(yīng)對上述的這些挑戰(zhàn).?回想我們?nèi)祟惸軐D像內(nèi)容進行有效的識別, 是因為我們之前已經(jīng)積累了許多經(jīng)驗, 通過對經(jīng)驗的利用, 從而對新情況做出判斷.
在計算機系統(tǒng)中, 經(jīng)驗通常是以數(shù)據(jù)的形式存在.?我們將提供給計算機每個類別的許多實例(examples), 它們組成了訓(xùn)練集(training set),?利用學(xué)習(xí)算法(learning algorithms)從訓(xùn)練集中產(chǎn)生分類器(classifier)}或模型(model).?在面對新情況時(例如看到一張以前未出現(xiàn)的圖像), 模型會提供相應(yīng)的判斷.?這個過程, 叫做數(shù)據(jù)驅(qū)動過程.?
總結(jié)
以上是生活随笔為你收集整理的[深度学习基础] 1. 图像识别问题的挑战及数据驱动过程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [深度学习基础] 2. 线性分类器
- 下一篇: 深度学习之caffe1——软件配置与测试