【AI白身境】深度学习必备图像基础
文章首發(fā)于微信公眾號(hào)《有三AI》
【AI白身境】深度學(xué)習(xí)必備圖像基礎(chǔ)
今天是新專欄《AI白身境》的第四篇,所謂白身,就是什么都不會(huì),還沒(méi)有進(jìn)入角色。
我們已經(jīng)說(shuō)了linux基礎(chǔ)和python基礎(chǔ),接下來(lái)就要開(kāi)始真正干活了。所謂萬(wàn)丈高樓平地起,正式從事深度學(xué)習(xí)技術(shù)的三大方向,圖像,語(yǔ)音,NLP之前,自然要先了解各自的基礎(chǔ)。
筆者身處計(jì)算機(jī)視覺(jué)領(lǐng)域,所以這一期就跟大家說(shuō)說(shuō)必備的圖像基礎(chǔ)。
作者?|?言有三,微信Longlongtogo
編輯?|?言有三
?
01?圖像的起源
1.1?圖像的進(jìn)化
圖像是什么?這個(gè)問(wèn)題大家都有自己的答案。我的答案是,圖像是一門語(yǔ)言,是人類文明的象征。
人類起源時(shí)沒(méi)有圖像,最開(kāi)始記事采用的方法是什么呢?據(jù)《易·系辭下》中記錄,“上古結(jié)繩而治,后世圣人易之書契?,百官以治,萬(wàn)民以查”,也就是說(shuō),最開(kāi)始沒(méi)有文字,大家采用結(jié)繩的方法來(lái)記錄。
到了后來(lái),中國(guó)進(jìn)入了一個(gè)文明時(shí)代,商朝,并且有了自己的文字,甲骨文,這就是我們現(xiàn)在漢字的起源。
再后來(lái),隨著西方文明的發(fā)展,有了照片,從此我們進(jìn)入了多媒體記錄信息的時(shí)代。
如今,圖片視頻已經(jīng)成為了人的一生中非常重要的記憶載體。
英文image來(lái)源于拉丁文imāgō,它的含義有很多,比如reflection,visible?form等等,實(shí)際上表述的就是一種語(yǔ)言。
圖像包括圖和像,圖,它是一直客觀存在的光的分布。而像則是圖在人大腦中的印象。
1.2?模擬圖像與數(shù)字圖像
圖像起源于1826年前后法國(guó)科學(xué)家Joseph?Nicéphore?Niépce發(fā)明的第一張可永久保存的照片,屬于模擬圖像。
模擬圖像又稱連續(xù)圖像,它通過(guò)某種物理量(如光、電等)的強(qiáng)弱變化來(lái)記錄圖像亮度信息,所以是連續(xù)變換的。模擬信號(hào)的特點(diǎn)是容易受干擾,如今已經(jīng)基本全面被數(shù)字圖像替代。
在第一次世界大戰(zhàn)后,1921年美國(guó)科學(xué)家發(fā)明了Bartlane?System,并從倫敦傳到紐約傳輸了第一幅數(shù)字圖像,其亮度用離散數(shù)值表示。
這是一種電纜圖片傳輸系統(tǒng),將圖片編碼成5個(gè)灰度級(jí),1929年發(fā)展成15個(gè)灰度級(jí),通過(guò)海底電纜進(jìn)行傳輸。在發(fā)送端圖片被編碼并使用打孔帶記錄,通過(guò)系統(tǒng)傳輸后在接收方使用特殊的打印機(jī)恢復(fù)成圖像。
二戰(zhàn)時(shí),世界各國(guó)報(bào)紙上的圖像都是采用Bartlane?System進(jìn)行傳輸。
1950年左右,計(jì)算機(jī)被發(fā)明,數(shù)字圖像處理學(xué)科正式誕生。
模擬圖像和數(shù)字圖像的對(duì)比,大家可以看看。
?
02?數(shù)字圖像表示
2.1?位數(shù)
計(jì)算機(jī)采用0/1編碼的系統(tǒng),數(shù)字圖像也是利用0/1來(lái)記錄信息,我們平常接觸的圖像都是8位數(shù)圖像,包含0~255灰度,其中0,代表最黑,1,表示最白。
其實(shí)人眼對(duì)亮度的對(duì)比的敏感度遠(yuǎn)遠(yuǎn)超過(guò)亮度的本身。
就像上面的兩條線,是一樣的灰度值,但是人眼很難分辨這是相同的灰度,盡管知識(shí)告訴我們它是。實(shí)際上,人眼能分辨的灰度級(jí)不到32級(jí),大于16級(jí)。
2.2?分辨率?
數(shù)字圖像有兩個(gè)分辨率,圖像分辨率與輸出分辨率。
圖像分辨率指的是每英寸的像素?cái)?shù),簡(jiǎn)寫為ppi,我們平常說(shuō)一張圖片大小的時(shí)候使用的就是圖像分辨率。
輸出分辨率指的是設(shè)備輸出圖像時(shí)每英寸可產(chǎn)生的點(diǎn)數(shù),簡(jiǎn)寫為dpi,這是在印刷行業(yè),攝影行業(yè)常用的分辨率,攝影行業(yè)通常要求DPI不低于300。
相同的圖像分辨率,更高的DPI表現(xiàn)為物理尺寸更小。因?yàn)檫@個(gè)時(shí)候每英寸點(diǎn)更多,像素變小。
如下面兩張圖,左圖的DPI=72,物理尺寸大小為高46.85厘米,寬67.73厘米。右圖的DPI=150,物理尺寸大小為高22.47厘米,寬32.49厘米。兩者的像素?cái)?shù)是相等的,都是1920*1328像素分辨率,但是右邊的dpi更大。
物理尺寸相同,DPI較低表現(xiàn)為較低的分辨率,此時(shí)每英寸的點(diǎn)數(shù)變少,像素變大。如下面兩張圖,圖像實(shí)際大小相等,但是右邊的圖像分辨率較低,像素?cái)?shù)較少,清晰度有所下降。
2.3??彩色空間?
圖像有灰度圖有彩色圖,灰度圖即只包含亮度信息,而彩色圖不僅包含亮度信息還包含顏色信息。
我們平常接觸的是RGB彩色圖,即由紅(Red)綠(Green)藍(lán)(Blue)3個(gè)通道組成,一張圖像的每一個(gè)像素由矢量(R,G,B)表示。
這是在消費(fèi)市場(chǎng)最廣泛使用的,最常用的用途就是顯示器系統(tǒng),計(jì)算機(jī)、電視機(jī)等都是采用RGB顏色空間來(lái)進(jìn)行圖像顯示。RGB顏色空間背后的生物學(xué)原理是人眼有對(duì)這3種顏色最敏感的細(xì)胞,在自然界中肉眼所能看到的任何色彩都可以由這三種色彩疊加而成,因此也被稱為加色原理。比如黃色,可以通過(guò)紅色和綠色相加,全紅色為(255,0,0),全綠色為(0,255,0),全黃色為(255,255,0)。
有藝術(shù)背景的讀者會(huì)提出綠色和紅色混合在一起產(chǎn)生的是褐色,與這里的計(jì)算機(jī)色彩模型加色原理不同,這是因?yàn)槔L畫遵循的是減色模型。
除了RGB顏色空間,常用的顏色空間還有HSV,CIELab等,我們以后會(huì)集中講述。
?
03?數(shù)字圖像處理基礎(chǔ)
數(shù)字圖像處理有一些基本的表述和概念我們必須清楚。
3.1??直方圖?
圖像之所以能處理,是因?yàn)橄袼嘏c像素是有空間聯(lián)系的,對(duì)像素灰度值進(jìn)行統(tǒng)計(jì),就得到了直方圖。
下面分別是上面灰度和彩色圖的直方圖。
統(tǒng)計(jì)代碼如下:
import?cv2
import?matplotlib.pyplot?as?plt
import?numpy?as?np
import?sys
import?os
filename=sys.argv[1]
img=cv2.imread(filename)
colors=['blue','green','red']
for?i?in?range(3):
????hist,x=np.histogram(img[:,:,i].ravel(),bins=256,range=(0,256))
????plt.plot(0.5*(x[:-1]+x[1:]),hist,label=colors[i],color=colors[i])
plt.show()
imggray?=?cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
cv2.imwrite('sample_gray.jpg',imggray)
histgray,xgray=np.histogram(imggray.ravel(),bins=256,range=(0,256))
print?xgray
plt.figure()
plt.plot(0.5*(xgray[:-1]+xgray[1:]),histgray)
plt.show()
我們可以看到,在灰度直方圖包含兩個(gè)很明顯的分布,在彩色直方圖的紅色通道也包含兩個(gè)很明顯的分布,分別對(duì)應(yīng)的就是“前景”和“背景”。
如上圖,感興趣的是圖中的“柿子”,這就是前景,它的灰度比較高,對(duì)應(yīng)的就是直方圖中的較高峰。
3.2??邊緣?
視覺(jué)機(jī)制和馬赫達(dá)效應(yīng)都表明人眼對(duì)不連續(xù)的東西是最敏感的,而圖像中不連續(xù)的東西,表現(xiàn)出來(lái)就是圖像邊緣。
邊緣包含上升階躍型、下降階躍型、屋脊型、脈沖型等類型,
邊緣檢測(cè)在計(jì)算機(jī)視覺(jué)與圖像處理中基礎(chǔ)且應(yīng)用廣泛。通過(guò)提取目標(biāo)的輪廓,用于識(shí)別不同的物體,或作為圖像的特征表示。邊緣檢測(cè)的基本方法有很多,它們的絕大部分可以劃分為兩類:基于一階導(dǎo)數(shù)和二階導(dǎo)數(shù)的方法。
關(guān)于邊緣檢測(cè)方法,公眾號(hào)有視頻公開(kāi)課,大家可以去看。
3.3??對(duì)比度與清晰度?
圖像有高亮度也有低亮度,對(duì)應(yīng)的就是白與黑,目前多數(shù)顯示系統(tǒng)利用8字節(jié),即灰度值0代表最黑,灰度值255代表最亮,不過(guò)大部分圖像上的亮度范圍通常都小于最大最小值之差。
對(duì)比度,指的就是畫面的明暗反差程度。
對(duì)比度有全局對(duì)比度和局部對(duì)比度。增加對(duì)比度,畫面中亮的地方會(huì)更亮,暗的地方會(huì)更暗,明暗反差會(huì)增強(qiáng)。下面分別是降低對(duì)比度和增加對(duì)比度,感受一下。
清晰度,指的是邊緣附近的敏感對(duì)比。
如果增加清晰度,邊緣較暗的一側(cè)會(huì)變得更暗,邊緣較亮的一側(cè)會(huì)變得更亮,輪廓更加清晰,不過(guò)調(diào)節(jié)過(guò)度,會(huì)出現(xiàn)暈影。
增加清晰度,可以通過(guò)銳化操作來(lái)進(jìn)行。降低清晰度,可以通過(guò)降低圖像分辨率,增加模糊等方法。
?
04?圖像處理與計(jì)算機(jī)視覺(jué)
有一些基本概念容易混淆,圖像處理,圖形學(xué),計(jì)算機(jī)視覺(jué)等,用幾個(gè)圖就很好理解了。
4.1??圖像處理領(lǐng)域?
圖像處理一般指數(shù)字圖像處理,輸入是圖像,輸出也是圖像,通常是為了改善,增強(qiáng)圖像的內(nèi)容以方便后續(xù)的分析。
?
圖像模糊
對(duì)比度增強(qiáng)
圖像降噪
更多的圖像算法,等我更新即可。
4.2??計(jì)算機(jī)視覺(jué)?
所謂計(jì)算機(jī)視覺(jué),即compute?vision,就是通過(guò)用計(jì)算機(jī)來(lái)模擬人的視覺(jué)工作原理,來(lái)完成模式分析,比如圖像分類,分割,檢測(cè)等。
?
4.3??圖形學(xué)?
所謂計(jì)算機(jī)圖形學(xué)(Computer?Graphics,簡(jiǎn)稱CG),是指使用數(shù)學(xué)算法將二維或三維圖形轉(zhuǎn)化為計(jì)算機(jī)顯示器的柵格形式的科學(xué)。
簡(jiǎn)單地說(shuō),計(jì)算機(jī)圖形學(xué)的主要研究?jī)?nèi)容就是研究如何在計(jì)算機(jī)中表示圖形、以及利用計(jì)算機(jī)進(jìn)行圖形的計(jì)算,比如我們熟知的CG制作。
圖形學(xué)中三維重建占了很大一部分比例,感興趣可以了解更多。
以上幾個(gè)領(lǐng)域都是相互交叉,實(shí)際上沒(méi)必要分的那么開(kāi),了解即可。
?
總結(jié)
基礎(chǔ)的圖像知識(shí)就這么多吧,雖然簡(jiǎn)單,但是一定要記牢了,免得以后還會(huì)回顧基礎(chǔ)概念。
下期預(yù)告:下一期我們會(huì)講Opencv基礎(chǔ),如果你有建議,歡迎留言,我們會(huì)及時(shí)采納的。
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上,歡迎大家關(guān)注有三公眾號(hào) 有三AI!
?
總結(jié)
以上是生活随笔為你收集整理的【AI白身境】深度学习必备图像基础的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【AI白身境】学AI必备的python基
- 下一篇: 【AI白身境】搞计算机视觉必备的Open