當(dāng)前位置：首頁 >

尺度空间理论

發(fā)布時間：2025/7/25 36 豆豆

生活随笔收集整理的這篇文章主要介紹了尺度空间理论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

FROM：http://www.cnblogs.com/ronny/p/3886013.html

1. 特征的不變性

何謂特征？

每個物體，我們總可以用一些詞語或部件來描述它，比如人臉的特征：兩個眼睛、一個鼻子和一個嘴巴。對于圖像而言，我們需要計算機(jī)去理解圖像，描述圖像就需要計算機(jī)去取得圖像的特征，對圖像比較全面的描述即一個二維矩陣，矩陣內(nèi)的每個值代表圖像的亮度。有時候我們需要讓計算機(jī)更簡化的來描述一個圖像，抓住一些顯著特征，這些特征要具有一些良好的性質(zhì)，比如局部不變性。局部不變性一般包括兩個方面：尺度不變性與旋轉(zhuǎn)不變性。

- 尺度不變性：人類在識別一個物體時，不管這個物體或遠(yuǎn)或近，都能對它進(jìn)行正確的辨認(rèn)，這就是所謂的尺度不變性。尺度空間理論經(jīng)常與生物視覺關(guān)聯(lián)，有人也稱圖像局部不變性特征為基于生物視覺的不變性方法。

- 旋轉(zhuǎn)不變性：當(dāng)這個物體發(fā)生旋轉(zhuǎn)時，我們照樣可以正確地辨認(rèn)它，這就是所謂的旋轉(zhuǎn)不變性。

2. 局部不變特征

全局特征：從整個圖像中抽取的特征。較多的運(yùn)用在圖像檢索領(lǐng)域，如圖像顏色直方圖。

局部特征：從圖像的局部區(qū)域中抽取的特征（這個局部區(qū)域往往是圖像中的一個像素及它周圍的鄰域）。

一種好的局部特征應(yīng)該具有下面的特性：

可重復(fù)性：同一個物體在不同時間，不同角度拍到圖像中，檢測到的特征對應(yīng)的越多越好。

獨(dú)特性：特征在該物體上表現(xiàn)為獨(dú)特性，能與場景下其他物體區(qū)分。

局部性：特征往往是物體某個局部的特點，這樣才可以避免遮擋時不能匹配的問題。

數(shù)量性：檢測到的特征數(shù)目一定要多，密集度最好能在一定程度上反映圖像的內(nèi)容。

準(zhǔn)確性：得到的特征應(yīng)該能被精確定位，能夠精確到像素。

高效性：特征檢測算法運(yùn)算要快。

為了研究圖像的尺度不變特征，我們需要先從圖像的尺度空間理論開始。

3. 圖像尺度空間理論

當(dāng)用一個機(jī)器視覺系統(tǒng)分析未知場景時，計算機(jī)沒有辦法預(yù)先知識圖像中物體尺度，因此，我們需要同時考慮圖像在多尺度下的描述，獲知感興趣物體的最佳尺度。

所以在很多時候，我們會在將圖像構(gòu)建為一系列不同尺度的圖像集，在不同的尺度中去檢測我們感興趣的特征。比如：在Harr特征檢測人臉的時候，因為我們并不知道圖像中人臉的尺寸，所以需要生成一個不同大小的圖像組成的金字塔，掃描其中每一幅圖像來尋找可能的人臉。

3.1 金字塔分辨率

圖像金字塔化的一般步驟：首先，圖像經(jīng)過一個低通濾波器進(jìn)行平滑（這個步驟會使圖像變模糊，好像模仿人的視覺中遠(yuǎn)處的物體沒有近處的清晰的原理），然后，對這個平滑后的圖像進(jìn)行抽樣（一般抽樣比例在水平和豎直方向上都為1/2），從而得到一系列的縮小的圖像。

???

假設(shè)高斯金字塔的第?l?層圖像為Gl，則有：

Gl(i,j)=∑m=?22∑n=?22ω(m,n)Gl?1(2i+m,2j+n)

(1≤l≤N,0≤i≤Rl,0≤j≤Cl)

式中，N為高斯金字塔頂層撥動號；Rl和Gl分別為高斯金字塔第l層的行數(shù)和列數(shù)；ω(m,n)是一個二維可分離的5×5窗口函數(shù)，表達(dá)式為：

ω=1256????????1464141624164624362464162416414641????????=116[14641]×116????????14641????????

寫成上面的形式是為了說明，二維窗口的卷積算子，可以寫成兩個方向上的1維卷積核（二項核）的乘積。上面卷積形式的公式實際上完成了2個步驟：1）高斯模糊；2）降維。

按上述步驟生成的G0,G1,…,GN就構(gòu)成了圖像的高斯金字塔，其中G0為金字塔的底層(與原圖像相同)，GN為金字塔的頂層。可見高斯金字塔的當(dāng)前層圖像是對其前一層圖像先進(jìn)行高斯低通濾波，然后做隔行和隔列的降采樣(去除偶數(shù)行與偶數(shù)列)而生成的。當(dāng)前層圖像的大小依次為前一層圖像大小的1/4。

下面是用OpenCV中的圖像金字塔相關(guān)函數(shù)寫的一個生成圖像金字塔的示例程序。程序中，不但生成了圖像金字塔，而且生成了圖像的拉普拉斯金字塔（接下來的內(nèi)容）。

enum pyrType { PYR_GUASS, PYR_LAPLACE }; void genPyr(const Mat& imgSrc, vector<Mat>& outPutArray, int TYPE, int level) {outPutArray.assign(level + 1, Mat());outPutArray[0] = imgSrc.clone(); // the 0 level is the image. for (int i = 0; i != level; i++){pyrDown(outPutArray[i], outPutArray[i + 1]);}if (PYR_GUASS == TYPE){return;}for (int i = 0; i != level; i++){Mat UpSampleImg;pyrUp(outPutArray[i + 1], UpSampleImg, outPutArray[i].size());outPutArray[i] -= UpSampleImg;} }

3.2 圖像的拉普拉斯金字塔

將Gl進(jìn)行內(nèi)插（這里內(nèi)插用的不是雙線性而是用的與降維時相同的濾波核）得到放大圖像G?l，使G?l的尺寸與Gl?1的尺寸相同，表示為：

G?l(i,j)=4∑m=?22∑n=?22ω(m,n)Gl(i+m2,j+n2)(0≤l≤N,0≤i≤Rl,0≤j≤Gl)

上面的系數(shù)4，是因為每次能參與加權(quán)的項，的權(quán)值和為4/256，這個與我們用的ω的值有關(guān)。

式中，

Gl(i+m2,j+n2)={Gl(i+m2,j+n2),0,當(dāng)i+m2,j+n2為整數(shù)時其他

令

{LPl=Gl?G?l+1,LPN=GN,當(dāng)0≤l≤N時當(dāng)l=N時

式中，N為拉普拉斯金字塔頂層號，LPl是拉普拉斯金字塔分解的第l層圖像。

由LP0,LP1,…,LPl,…,LPN構(gòu)成的金字塔即為拉普拉斯金字塔。它的每一層圖像是高斯金字塔本層圖像與其高一級的圖像經(jīng)內(nèi)插放大后圖像的差，此過程相當(dāng)于帶通濾波，因此拉普拉斯金字塔又稱為帶通金字塔分解。

下圖為小貓圖像的拉普拉斯金字塔圖像：

???

3.3 為什么用高斯核

圖像的金字塔化能高效地（計算效率也較高）對圖像進(jìn)行多尺度的表達(dá)，但它缺乏堅實的理論基礎(chǔ)，不能分析圖像中物體的各種尺度（雖然我們有小貓的金字塔圖像，我們還是不知道原圖像內(nèi)小貓的大小）。

信號的尺度空間剛提出是就是通過一系列單參數(shù)、寬度遞增的高斯濾波器將原始信號濾波得到到組低頻信號。那么一個很明顯的疑問是：除了高斯濾波之外，其他帶有參數(shù)t的低通濾波器是否也可以用來生成一個尺度空間。

后來Koenerink、Lindeberg[Scale-space theory in computer vision]、Florack等人用精確的數(shù)學(xué)形式通過不同的途徑都證明了高斯核是實現(xiàn)尺度變換的唯一變換核。

雖然很多研究者從可分性、旋轉(zhuǎn)不變性、因果性等特性推出高斯濾波器是建立線性尺度空間的最優(yōu)濾波器。然后在數(shù)字圖像處理中，需要對核函數(shù)進(jìn)行采樣，離散的高斯函數(shù)并不滿足連續(xù)高斯函數(shù)的的一些優(yōu)良的性質(zhì)。所以后來出現(xiàn)了一些非線性的濾波器組來建立尺度空間，如B樣條核函數(shù)。

使用高斯濾波器對圖像進(jìn)行尺度空間金塔塔圖的構(gòu)建，讓這個尺度空間具有下面的性質(zhì)：

1）加權(quán)平均和有限孔徑效應(yīng)

信號在尺度t上的表達(dá)可以看成是原信號在空間上的一系列加權(quán)平均，權(quán)重就是具有不同尺度參數(shù)的高斯核。

信號在尺度t上的表達(dá)也對應(yīng)于用一個無方向性的孔徑函數(shù)（特征長度為σ=t√）來觀測信號的結(jié)果。這時候信號中特征長度小于σ的精細(xì)結(jié)構(gòu)會被抑制[理解為一維信號上小于σ的波動會被平滑掉。]。

2）層疊平滑

也叫高斯核族的半群（Semi-Group）性質(zhì)：兩個高斯核的卷積等同于另外一個不同核參數(shù)的高斯核卷積。

g(μ,σ1)?g(μ,σ2)=g(μ,σ21+σ22???????√)

這個性質(zhì)的意思就是說不同的高斯核對圖像的平滑是連續(xù)的。

3）局部極值遞性

這個特征可以從人眼的視覺原理去理解，人在看一件物體時，離得越遠(yuǎn)，物體的細(xì)節(jié)看到的越少，細(xì)節(jié)特征是在減少的。

高斯核對圖像進(jìn)行濾波具有壓制局部細(xì)節(jié)的性質(zhì)。

4）尺度伸縮不變性。

這里只是一個公式推導(dǎo)的問題，對原來的信號加一個變換函數(shù)，對變換后的信號再進(jìn)行高斯核的尺度空間生成，新的信號的極值點等特征是不變的。

Young對經(jīng)生理學(xué)的研究中發(fā)現(xiàn)，哺乳動物的視網(wǎng)膜和視覺皮層的感受區(qū)域可以很好地用4階以內(nèi)的高斯微分來建模。

3.4 尺度的選擇[經(jīng)驗之談]

一般我們采集到的圖像中，我們并不知道我們感興趣的目標(biāo)在圖像中的尺度，在這樣的情況下，我們對圖像進(jìn)行分析時就無法選擇合適的參數(shù)，比如邊緣檢測，可能由于參數(shù)不當(dāng)，而造成過多的局部細(xì)節(jié)。

如下圖所示：紅色圓圈內(nèi)的斑點的大小（直徑）比例對應(yīng)著兩幅圖像之間尺度比例（scale ratio）。如果對兩幅圖像采用相同的固定尺度的LoG檢測器檢測，很難將這兩個斑點檢測出來。LoG檢測器相當(dāng)于一個匹配濾波器，只有當(dāng)LoG的尺度與圖片中斑點結(jié)構(gòu)尺度相當(dāng)時才會有較強(qiáng)的響應(yīng)。如果用與左圖中斑點結(jié)構(gòu)相當(dāng)大小尺度LoG算子，在中的大斑點的對應(yīng)的LoG響應(yīng)很小不能被檢測出來，反之亦然。因此固定尺度的LoG斑點檢測器不具有尺度不變性。使用尺度空間進(jìn)行多尺度檢測可以將兩幅圖像中不同尺度的斑點檢測出來。但是由于斑點結(jié)構(gòu)是在一定尺度范圍之內(nèi)存在的，比如用5~8尺度的LoG可能都能檢測出來右邊圖像中的斑點結(jié)構(gòu)，所以在尺度空間中進(jìn)行斑點檢測會有重復(fù)檢測的缺點。

在實際操作中，我們需要定義一個特征響應(yīng)函數(shù)，在不同的尺度空間上尋找一個極值點。比如小貓的金字塔圖像分析時，我們定義了一個大小為[w,h]的小貓的模板，用這個模板去與金字塔系列圖像匹配，一定有匹配度最佳（即特征響應(yīng)最強(qiáng)）。

需要注意的是，圖像結(jié)構(gòu)往往是在粗糙的尺度上被檢測到，此時位置信息未必是最準(zhǔn)確的，因此通常圖像的尺度分析包含兩個階段：首先在粗尺度上進(jìn)行特征（結(jié)構(gòu)）檢測，然后再在細(xì)尺度上進(jìn)行精確定位。

?

參考資料：

[1]?opencv教程：圖像金字塔

[2] 計算機(jī)視覺——算法與應(yīng)用 3.5節(jié) 金字塔與小波

[3] 現(xiàn)代數(shù)字圖像 1.1節(jié) 圖像多分辨率真金字塔

[4]?OpenCV的5種圖像內(nèi)插方法

總結(jié)

以上是生活随笔為你收集整理的尺度空间理论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。