日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

VLAD教程和资料 All about VLAD

發(fā)布時間:2025/3/21 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 VLAD教程和资料 All about VLAD 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

正如標題所示,這里將記錄VLAD的一切。VLAD本小子雖然也讀過幾篇這方面的paper,不過讀的時候一直理解的很粗糙。所以想借此機會開個帖子,一方面驅(qū)動自己去加深對它的理解,另一方面把這些自己對它的理解記錄下來,方便自己查閱。

VLAD初步

在進行理論分析之前,先來看看VLAD長個什么樣子,這里本小子分步展開VLAD是怎么得來的。

  • 提取SIFT特征。對于一個樣本數(shù)為N的數(shù)據(jù)庫,先對圖像庫中的所有圖像提取SIFT描述子,假設(shè)提取到了所有SIFT描述子數(shù)目為n,用X來表示的話,X就是一個n*128的矩陣。
  • 聚類生成詞匯向量。假設(shè)要生成K個單詞,對X直接用Kmeans聚成K類,類中心即為單詞(也叫碼字)。
  • 生成VLAD向量。這一步其實如果對BOW的生成過程清楚的話,這一步理解起來就非常簡單了。BOW統(tǒng)計的是描述子落入最近單詞里的數(shù)目,而VLAD統(tǒng)計的則是這些落入最近單詞里與該單詞的累積殘差。根據(jù)Aggregating local image descriptors into compact codes的描述:
  • By counting the number of occurrences of visual words, BOW encodes the 0-order statistics of the distribution of descriptors. The Fisher vector extends the BOW by encoding high-order statistics (first and, optionally, second order).

    BOW做的是描述子的0階統(tǒng)計分布,而FV則是擴展了的BOW的高階統(tǒng)計。這里引出來的FV是什么呢?VLAD是FV的特例,這里我們先不關(guān)注FV,我們只要借此推得VLAD是BOW的高階統(tǒng)計就行。

    經(jīng)過上面三個步驟后,一幅圖像可以用一個1*(K*128)維的向量表示。為了初步驗證上面的過程是否正確,來看看上面那篇論文中VLAD的維數(shù)是否如這里所理解的是一個1*(K*128)維的向量,直接看實驗表:

    上表中FV和VLAD的D表示維數(shù),我們看到D=K*64,這里為什么不是128呢?原因在于作者對SIFT進行了PCA降維處理,將128維降到了64維。

    上面VLAD生成過程用文字描述起來不夠簡潔,直接把論文里計算VLAD的算法流圖扒過來了,算法流圖如下:

    提取VLAD

    在對VLAD有了初步的認識后,接下來我們可以動手提取VLAD,通過實驗來進一步了解VLAD。

    (待續(xù))

    參考:

  • 機器學習筆記——Fisher vector coding
  • Large-scale visual recognition Novel patch aggregation mechanisms
  • VLAD
  • from:?http://yongyuan.name/blog/all-about-vlad.html

    總結(jié)

    以上是生活随笔為你收集整理的VLAD教程和资料 All about VLAD的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。