當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

opencv Hog学习总结

發(fā)布時間：2025/3/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 opencv Hog学习总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、方向梯度

梯度：在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐幾里得空間Rn到R的函數(shù)的梯度是在Rn某一點最佳的線性近似。在這個意義上，梯度是雅可比矩陣的一個特殊情況。
在單變量的實值函數(shù)的情況，梯度只是導數(shù)，或者，對于一個線性函數(shù)，也就是線的斜率。

在圖像中梯度的概念也是像素值變換最快的方向，把邊緣（在圖像合成中單一物體的輪廓叫做邊緣）引入進來，邊緣與梯度保持垂直方向。

方向梯度中的方向是如何確定的？P0到P1的梯度方向：

具體在HOG中方向梯度的實現(xiàn)：首先用[-1,0,1]梯度算子對原圖像做卷積運算，得到x方向（水平方向，以向右為正方向）的梯度分量gradscalx，然后用[1,0,-1]T梯度算子對原圖像做卷積運算，得到y(tǒng)方向（豎直方向，以向上為正方向）的梯度分量gradscaly。然后再用以下公式計算該像素點的梯度大小和方向。

二、算法基本流程

在一幅圖像中，方向梯度直方圖（Histogram of Oriented Gradient, HOG）能夠很好地描述局部目標區(qū)域的特征，是一種常用的特征提取方法，HOG+SVM在行人檢測中有著優(yōu)異的效果。在HOG中，對一幅圖像進行了如下劃分： ?
圖像(image)->檢測窗口(win)->圖像塊(block)->細胞單元(cells)?
流程圖如下： ?

大概過程：

HOG特征提取方法就是將一個image（你要檢測的目標或者掃描窗口）：

1）灰度化（將圖像看做一個x,y,z（灰度）的三維圖像）；

2）采用Gamma校正法對輸入圖像進行顏色空間的標準化（歸一化）；目的是調(diào)節(jié)圖像的對比度，降低圖像局部的陰影和光照變化所造成的影響，同時可以抑制噪音的干擾；

3）計算圖像每個像素的梯度（包括大小和方向）；主要是為了捕獲輪廓信息，同時進一步弱化光照的干擾。

4）將圖像劃分成小cells（例如6*6像素/cell）；

5）統(tǒng)計每個cell的梯度直方圖（不同梯度的個數(shù)），即可形成每個cell的descriptor；

6）將每幾個cell組成一個block（例如3*3個cell/block），一個block內(nèi)所有cell的特征descriptor串聯(lián)起來便得到該block的HOG特征descriptor。

7）將圖像image內(nèi)的所有block的HOG特征descriptor串聯(lián)起來就可以得到該image（你要檢測的目標）的HOG特征descriptor了。這個就是最終的可供分類使用的特征向量了。

（1）標準化gamma空間和顏色空間

? ? ?為了減少光照因素的影響，首先需要將整個圖像進行規(guī)范化（歸一化）。在圖像的紋理強度中，局部的表層曝光貢獻的比重較大，所以，這種壓縮處理能夠有效地降低圖像局部的陰影和光照變化。因為顏色信息作用不大，通常先轉化為灰度圖；

? ? ?Gamma壓縮公式：

? ? ?比如可以取Gamma=1/2；

歸一化的目的：就是使得預處理的數(shù)據(jù)被限定在一定的范圍內(nèi)（比如[0,1]或者[-1,1]），從而消除奇異樣本數(shù)據(jù)導致的不良影響梯度直方圖由梯度大小、方向生成光照變化無非就是強度和方向變化，你嘗試從以下幾點去理解： 1、光照強度會不會影響梯度強度，歸一化能不能消除這個差異 2、光照方向變化會不會影響梯度的方向變化，需不需要歸一化消除，還是本身就不會影響到？

（2）.計算圖像梯度

對數(shù)字圖像而言，每個像素水平和垂直方向的梯度，可以通過下圖的kernels計算：?

?
即可寫為：?

?
每個像素梯度大小和方向可表示為：?

?
其中，I(x,y)是圖像在點(x,y)處的像素值。?
梯度圖像移除了不必要的信息，但是高亮了輪廓線。在每一個像素上，梯度都有大小和方向。對于彩色圖像，3個通道的梯度都將被計算出來，然而圖像素的梯度值為3個通道中最大的梯度值，角度也是最大角度。

（3）為每個細胞單元構建梯度方向直方圖

? ? ? ? 第三步的目的是為局部圖像區(qū)域提供一個編碼，同時能夠保持對圖像中人體對象的姿勢和外觀的弱敏感性。

我們將圖像分成若干個“單元格cell”，例如每個cell為8*8個像素。假設我們采用9個bin的直方圖來統(tǒng)計這8*8個像素的梯度信息。也就是將cell的梯度方向360度分成9個方向塊，如圖所示

例如：如果這個像素的梯度方向是20-40度，直方圖第2個bin的計數(shù)就加一，這樣，對cell內(nèi)每個像素用梯度方向在直方圖中進行加權投影（映射到固定的角度范圍），就可以得到這個cell的梯度方向直方圖了，就是該cell對應的9維特征向量（因為有9個bin）。

梯度大小就是作為投影的權值的。

這邊的加權投影所用的權值為當前點的梯度幅值。例如說：某個像素的梯度方向是20-40度，其梯度幅值是4，那么直方圖第2個bin的計數(shù)就不是加1了，而是加4。這樣就得到關于梯度方向的一個加權直方圖。之前提到過，cell的中方向范圍的個數(shù)由bins來決定，還是以9為例：所以，一個cell中的向量為9個。以上面的例子，在一個尺寸為64×64的檢測窗中，描述子的維數(shù)就應該為：9×4×49=1764 。其中4為一個block中cell的個數(shù)，49為一個win中block的個數(shù)。?

細胞單元可以是矩形的（rectangular），也可以是星形的（radial）。

（4）把細胞單元組合成大的塊（block），塊內(nèi)歸一化梯度直方圖

? ? ? ?由于局部光照的變化以及前景-背景對比度的變化，使得梯度強度的變化范圍非常大。這就需要對梯度強度做歸一化。歸一化能夠進一步地對光照、陰影和邊緣進行壓縮。

? ? ? ? 作者采取的辦法是：把各個細胞單元組合成大的、空間上連通的區(qū)間（blocks）。這樣，一個block內(nèi)所有cell的特征向量串聯(lián)起來便得到該block的HOG特征。這些區(qū)間是互有重疊的，這就意味著：每一個單元格的特征會以不同的結果多次出現(xiàn)在最后的特征向量中。我們將歸一化之后的塊描述符（向量）就稱之為HOG描述符。

區(qū)間有兩個主要的幾何形狀——矩形區(qū)間（R-HOG）和環(huán)形區(qū)間（C-HOG）。R-HOG區(qū)間大體上是一些方形的格子，它可以有三個參數(shù)來表征：每個區(qū)間中細胞單元的數(shù)目、每個細胞單元中像素點的數(shù)目、每個細胞的直方圖通道數(shù)目。

例如：行人檢測的最佳參數(shù)設置是：2×2細胞/區(qū)間、8×8像素/細胞、9個直方圖通道。則一塊的特征數(shù)為：2*2*9；

（5）收集HOG特征

? ? ? 最后一步就是將檢測窗口中所有重疊的塊進行HOG特征的收集，并將它們結合成最終的特征向量供分類使用。
?

三、HOG的win ,block ,cell

對于圖像中檢測窗口的尺寸為64×64，假設給出塊的尺寸為16×16，塊步長為(8,8)，經(jīng)過計算：檢測窗口中共滑動7×7=49個block。在一個塊中選擇細胞單元不再滑動，給出細胞單元的尺寸為(8,8)，所以一個塊中一共有2×2=4個cell。

那么一個圖像的HOG特征維數(shù)是多少呢？

把樣本圖像分割為若干個像素的單元（cell），把梯度方向平均劃分為9個區(qū)間（bin），在每個單元里面對所有像素的梯度方向在各個方向區(qū)間進行直方圖統(tǒng)計，得到一個9維的特征向量，每相鄰的4個單元構成一個塊（block），把一個塊內(nèi)的特征向量聯(lián)起來得到36維的特征向量，用塊對樣本圖像進行掃描，掃描步長為一個單元。最后將所有塊的特征串聯(lián)起來，就得到了人體的特征。例如，對于64X128的圖像而言，每16X16的像素組成一個cell，每2X2個cell組成一個塊，因為每個cell有9個特征，所以每個塊內(nèi)有4X9=36個特征，以8個像素為步長，那么，水平方向將有7個掃描窗口，垂直方向將有15個掃描窗口。也就是說，64X128的圖片，總共有36X7X15=3780個特征。

注意

上面舉例說的是64X128圖像對應的HOG特征。但是64X128可能是一個更大圖片的滑動窗口，這個滑動窗口用于物體檢測，
?

單獨將其中一個8*8的小格拿出來，方向梯度中指的方向范圍為2π，360°，為了畫直方圖我們還需要選取合適的組距也就是bin，這里組距選取2π/9，也就是最后的直方圖組數(shù)為9。下圖為8*8像素的cell對應的方向梯度（未全部畫出，共有8*8=64個）。

圖5
將上面的64個方向梯度，按著直方圖的參數(shù)設置進行畫圖，其中梯度的大小在統(tǒng)計數(shù)量中呈線性關系，比如梯度大小為2（上述公式可以計算梯度大小），則直方圖對應增加2個單位，
畫出的對應直方圖假設如下所示：

圖6

把上圖中單個cell對應的方向直方圖轉換為單維向量，也就是按規(guī)定組距對對應方向梯度個數(shù)進行編碼，（8,10,6,12,4,5,8,6,14 和為），得到單個cell的9個特征，每個block（掃描窗口）包含2*2個cell也就是2*2*9=36個特征，一個64*128大小的圖像最后得到的特征數(shù)為36*7*15=3780個。這樣將一幅直觀的梯度圖通過分解提取變?yōu)橛嬎銠C容易理解的特征向量。
以上工作為HOG提取的主要內(nèi)容，最后得到對應的行人的由方向梯度直方圖HOG提取到的特征向量，但是計算機還是不知道這個數(shù)據(jù)數(shù)組代表了什么意思，什么時候這組向量代表行人，什么時候代表其他東西，怎樣train，最后通過不斷地學習，而后在檢測積累的基礎上對對未知圖像檢測識別有沒有行人呢？那就是后一步SVM要做的事了。
參考自：https://blog.csdn.net/akadiao/article/details/79685323

https://blog.csdn.net/LUFANGBO/article/details/82491680

總結

以上是生活随笔為你收集整理的opencv Hog学习总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

OpenCV
HOG

上一篇： python CV2裁剪图片并保存
下一篇：无法打开包括文件: “corecrt.h