什么是图像金字塔
有些情況下,我們需要處理源自同一張圖像的不同分辨率的圖像集合。這些不同分辨率的圖像組成的集合稱為圖像金字塔。
圖像金字塔的主要類型可分為低通和帶通
有兩種常用圖像金字塔:
之所以稱為金字塔,是因?yàn)榻鹱炙撞坑纱蟪叽绲脑瓐D組成,越往上層,尺寸越小,堆疊起來(lái)就是一個(gè)金字塔的形式:
金字塔的生成過(guò)程
如果把原圖放在最底部,之后每一次的生成圖像都堆疊到上一次的結(jié)果之上,就形成了金字塔的形狀
具體的,拉普拉斯金字塔(Laplacian Pyramids)中的每一層,是由高斯金字塔的對(duì)應(yīng)層以及高一層(需要先插值放大)做差而成。
Scale Space 尺度空間
尺度空間: 將一幅圖像表示為一系列的平滑圖像,稱為尺度空間表示,這些平滑圖像可參數(shù)化表示為平滑核(用于抑制細(xì)尺度結(jié)構(gòu))的尺寸。
定義:
尺度空間的概念適用于有著任意數(shù)目變量的信號(hào)。而其在二維圖像上的應(yīng)用是最常見(jiàn)的。
尺度空間的其中一個(gè)主要類型,就是線性(高斯)尺度空間。高斯尺度空間因其良好的性質(zhì)而被廣泛地應(yīng)用。
對(duì)于給定的一副二維圖像 f(x,y),他的線性(高斯)尺度空間表示是由一系列的派生信號(hào)L(x,y;t)所組成,其中L(x,y,;t)由f(x,y)與一個(gè)二維高斯核卷積而成,其中二維高斯核定義如下:
?
因此有:
?
其中 * 號(hào)代表卷積。 分號(hào)表示卷機(jī)操作只對(duì) x,y 這兩個(gè)變量進(jìn)行,t僅指代定義好的尺度級(jí)別(scale level)。上述L 適用于連續(xù)的尺度級(jí)別 t≥0, 但一般情況下僅會(huì)考慮離散的一組t
尺度參數(shù) t=σ^2 是高斯filter的方差。當(dāng)t趨于零時(shí),g就成為了一個(gè)脈沖函數(shù)(除了零點(diǎn),別處的函數(shù)值都為零),則有 L(x,y;0)=f(x,y), 也就是說(shuō),位于尺度級(jí)別 t = 0 的尺度空間表示(scale-space representation)就是原圖本身。隨著t的增大,越來(lái)越大的filter被作用于圖像f,形成平滑度越來(lái)越高的L,以至于原圖中越來(lái)越多的細(xì)節(jié)被丟棄。由于每個(gè)filter的標(biāo)準(zhǔn)差為σ=√t, 對(duì)于位于尺度等級(jí)t的圖像,遠(yuǎn)小于√t的細(xì)節(jié)很大程度上會(huì)被丟棄。
關(guān)于filter的選取
并非任何低通filter都可用于生成尺度空間。可用于生成尺度空間的filter必須滿足以下一點(diǎn):由該平滑filter生成的粗尺度圖像(高層圖像)不會(huì)引入不存在于細(xì)尺度圖像(低層圖像)中的雜散結(jié)構(gòu)。換言之,給定粗尺度圖像中的任何一個(gè)區(qū)域,細(xì)尺度圖像上總能找到相應(yīng)的區(qū)域。這兩個(gè)區(qū)域相比,粗尺度圖像區(qū)域不能夠有新的結(jié)構(gòu)。
受制于尺度空間公理,高斯卷積核是實(shí)現(xiàn)尺度變換的唯一線性核。
為什么要提出尺度空間?
在現(xiàn)實(shí)世界中,物體在不同尺度下,有著不同的結(jié)構(gòu)。這就表明,我們?nèi)绻麖牟煌某叨热ビ^察同一個(gè)物體,會(huì)得出不一樣的結(jié)果。比如,觀察一棵樹(shù)的適當(dāng)尺度應(yīng)該是“米”,而觀察一片葉子可能需要更細(xì)粒度的尺度才能得出較好的結(jié)果。 當(dāng)計(jì)算機(jī)系統(tǒng)要對(duì)一個(gè)未知的場(chǎng)景進(jìn)行分析時(shí),并不能夠提前預(yù)知要用什么樣的尺度來(lái)對(duì)圖像信息中的興趣結(jié)構(gòu)(interesting structures)進(jìn)行描述才是最合適的。因此,唯一可行的方案就是將多個(gè)不同尺度的描述都考慮進(jìn)來(lái),以便捕獲未知的尺度變化。
尺度空間理論和生物視覺(jué)之間也有著十分密切的聯(lián)系。哺乳動(dòng)物的視網(wǎng)膜以及視覺(jué)皮層第一階段所記錄的接受場(chǎng)的分布,與許多尺度空間操作都高度近似。
參考鏈接:
https://en.wikipedia.org/wiki/Scale_space
http://opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_pyramids/py_pyramids.html
https://en.wikipedia.org/wiki/Pyramid_(image_processing)
作者:Kangel_Zenn
鏈接:https://www.jianshu.com/p/cefbdc2dc5b9
來(lái)源:簡(jiǎn)書(shū)
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
總結(jié)
- 上一篇: dlib人脸识别
- 下一篇: 遨博协作机器人ROS开发 - 机械臂复杂