當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

VLAD教程和资料 All about VLAD

發布時間：2025/3/21 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 VLAD教程和资料 All about VLAD 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正如標題所示，這里將記錄VLAD的一切。VLAD本小子雖然也讀過幾篇這方面的paper，不過讀的時候一直理解的很粗糙。所以想借此機會開個帖子，一方面驅動自己去加深對它的理解，另一方面把這些自己對它的理解記錄下來，方便自己查閱。

VLAD初步

在進行理論分析之前，先來看看VLAD長個什么樣子，這里本小子分步展開VLAD是怎么得來的。

提取SIFT特征。對于一個樣本數為N的數據庫，先對圖像庫中的所有圖像提取SIFT描述子，假設提取到了所有SIFT描述子數目為n,用X來表示的話，X就是一個n*128的矩陣。

聚類生成詞匯向量。假設要生成K個單詞，對X直接用Kmeans聚成K類，類中心即為單詞(也叫碼字)。

生成VLAD向量。這一步其實如果對BOW的生成過程清楚的話，這一步理解起來就非常簡單了。BOW統計的是描述子落入最近單詞里的數目，而VLAD統計的則是這些落入最近單詞里與該單詞的累積殘差。根據Aggregating local image descriptors into compact codes的描述：

By counting the number of occurrences of visual words, BOW encodes the 0-order statistics of the distribution of descriptors. The Fisher vector extends the BOW by encoding high-order statistics (first and, optionally, second order).

BOW做的是描述子的0階統計分布，而FV則是擴展了的BOW的高階統計。這里引出來的FV是什么呢？VLAD是FV的特例，這里我們先不關注FV，我們只要借此推得VLAD是BOW的高階統計就行。

經過上面三個步驟后，一幅圖像可以用一個1*(K*128)維的向量表示。為了初步驗證上面的過程是否正確，來看看上面那篇論文中VLAD的維數是否如這里所理解的是一個1*(K*128)維的向量，直接看實驗表：

上表中FV和VLAD的D表示維數，我們看到D=K*64,這里為什么不是128呢？原因在于作者對SIFT進行了PCA降維處理，將128維降到了64維。

上面VLAD生成過程用文字描述起來不夠簡潔，直接把論文里計算VLAD的算法流圖扒過來了，算法流圖如下：

提取VLAD

在對VLAD有了初步的認識后，接下來我們可以動手提取VLAD，通過實驗來進一步了解VLAD。

(待續)

參考：

機器學習筆記——Fisher vector coding

Large-scale visual recognition Novel patch aggregation mechanisms

VLAD

from:?http://yongyuan.name/blog/all-about-vlad.html

總結

以上是生活随笔為你收集整理的VLAD教程和资料 All about VLAD的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： caffe配置中的一些问题
下一篇：基于内容的图像检索 Database f

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

VLAD教程和资料 All about VLAD

VLAD初步

提取VLAD

總結