什么是图像金字塔
有些情況下,我們需要處理源自同一張圖像的不同分辨率的圖像集合。這些不同分辨率的圖像組成的集合稱為圖像金字塔。
圖像金字塔的主要類型可分為低通和帶通
有兩種常用圖像金字塔:
之所以稱為金字塔,是因為金字塔底部由大尺寸的原圖組成,越往上層,尺寸越小,堆疊起來就是一個金字塔的形式:
金字塔的生成過程
如果把原圖放在最底部,之后每一次的生成圖像都堆疊到上一次的結果之上,就形成了金字塔的形狀
具體的,拉普拉斯金字塔(Laplacian Pyramids)中的每一層,是由高斯金字塔的對應層以及高一層(需要先插值放大)做差而成。
Scale Space 尺度空間
尺度空間: 將一幅圖像表示為一系列的平滑圖像,稱為尺度空間表示,這些平滑圖像可參數化表示為平滑核(用于抑制細尺度結構)的尺寸。
定義:
尺度空間的概念適用于有著任意數目變量的信號。而其在二維圖像上的應用是最常見的。
尺度空間的其中一個主要類型,就是線性(高斯)尺度空間。高斯尺度空間因其良好的性質而被廣泛地應用。
對于給定的一副二維圖像 f(x,y),他的線性(高斯)尺度空間表示是由一系列的派生信號L(x,y;t)所組成,其中L(x,y,;t)由f(x,y)與一個二維高斯核卷積而成,其中二維高斯核定義如下:
?
因此有:
?
其中 * 號代表卷積。 分號表示卷機操作只對 x,y 這兩個變量進行,t僅指代定義好的尺度級別(scale level)。上述L 適用于連續的尺度級別 t≥0, 但一般情況下僅會考慮離散的一組t
尺度參數 t=σ^2 是高斯filter的方差。當t趨于零時,g就成為了一個脈沖函數(除了零點,別處的函數值都為零),則有 L(x,y;0)=f(x,y), 也就是說,位于尺度級別 t = 0 的尺度空間表示(scale-space representation)就是原圖本身。隨著t的增大,越來越大的filter被作用于圖像f,形成平滑度越來越高的L,以至于原圖中越來越多的細節被丟棄。由于每個filter的標準差為σ=√t, 對于位于尺度等級t的圖像,遠小于√t的細節很大程度上會被丟棄。
關于filter的選取
并非任何低通filter都可用于生成尺度空間。可用于生成尺度空間的filter必須滿足以下一點:由該平滑filter生成的粗尺度圖像(高層圖像)不會引入不存在于細尺度圖像(低層圖像)中的雜散結構。換言之,給定粗尺度圖像中的任何一個區域,細尺度圖像上總能找到相應的區域。這兩個區域相比,粗尺度圖像區域不能夠有新的結構。
受制于尺度空間公理,高斯卷積核是實現尺度變換的唯一線性核。
為什么要提出尺度空間?
在現實世界中,物體在不同尺度下,有著不同的結構。這就表明,我們如果從不同的尺度去觀察同一個物體,會得出不一樣的結果。比如,觀察一棵樹的適當尺度應該是“米”,而觀察一片葉子可能需要更細粒度的尺度才能得出較好的結果。 當計算機系統要對一個未知的場景進行分析時,并不能夠提前預知要用什么樣的尺度來對圖像信息中的興趣結構(interesting structures)進行描述才是最合適的。因此,唯一可行的方案就是將多個不同尺度的描述都考慮進來,以便捕獲未知的尺度變化。
尺度空間理論和生物視覺之間也有著十分密切的聯系。哺乳動物的視網膜以及視覺皮層第一階段所記錄的接受場的分布,與許多尺度空間操作都高度近似。
參考鏈接:
https://en.wikipedia.org/wiki/Scale_space
http://opencv-python-tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_pyramids/py_pyramids.html
https://en.wikipedia.org/wiki/Pyramid_(image_processing)
作者:Kangel_Zenn
鏈接:https://www.jianshu.com/p/cefbdc2dc5b9
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
總結
- 上一篇: dlib人脸识别
- 下一篇: 遨博协作机器人ROS开发 - 机械臂复杂