日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督

發(fā)布時間:2024/10/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly?·?作者|葛藝瀟

學(xué)校|香港中文大學(xué)博士生

研究方向|圖像檢索、圖像生成等

本文介紹一篇我們發(fā)表于 ECCV 2020 的論文,很榮幸該論文被收錄為 spotlight presentation。我們針對大規(guī)模圖像定位中的弱監(jiān)督問題提出有效的解決方法,旨在通過自監(jiān)督學(xué)習(xí)的方法充分挖掘表征學(xué)習(xí)中的難樣本,并進一步將圖像級監(jiān)督細粒化為區(qū)域級監(jiān)督,以更好地建模圖像與區(qū)域間的復(fù)雜關(guān)系。

利用該算法訓(xùn)練的模型具有較強的魯棒性和泛化性,在多個圖像定位數(shù)據(jù)集上進行了驗證,Recall@1 準確度大幅超越最先進技術(shù)高達 5.7%,代碼和模型均已公開。

論文標題:Self-supervising Fine-grained Region Similarities for Large-scale Image Localization

論文來源:ECCV 2020

論文鏈接:https://arxiv.org/abs/2006.03926

代碼鏈接:https://github.com/yxgeee/OpenIBL

項目主頁:https://geyixiao.com/projects/sfrs

視頻介紹(簡要版):https://www.bilibili.com/video/BV1Y54y1q7CL/

視頻介紹(完整版)https://www.bilibili.com/video/BV1Da4y1E79q

背景簡介

圖像定位

給定一張目標圖像,圖像定位(Image-based Localization)技術(shù)旨在不借助 GPS 等額外信息的情況下估計出圖像所在的地理位置,該技術(shù)被廣泛應(yīng)用于 SLAM、AR/VR、手機拍照定位等場景。

目前針對圖像定位的研究主要可以分為三個方向,分別為基于圖像檢索的、基于 2D-3D 匹配的和基于地理位置分類的算法。其中基于圖像檢索(Image Retrieval)的方案在大規(guī)模(Large-scale)的長期圖像定位(Long-term Localization)上可行性更高,所以該工作針對基于圖像檢索的定位問題展開了研究。

基于圖像檢索的圖像定位

基于檢索的圖像定位問題旨在通過從城市級規(guī)模的數(shù)據(jù)庫中識別出與目標圖像最相似的參考圖像,從而通過參考圖像的地理位置(GPS)來估計目標圖像的地理位置。基于檢索的圖像定位問題也被稱為地點識別(Place Recognition)。

挑戰(zhàn) #1

圖像定位的數(shù)據(jù)集目前主要主要分為兩種,一種是直接從街景地圖(谷歌街景圖、百度街景圖等)中對圖像和相應(yīng)的 GPS 標簽進行爬取,這種類型的數(shù)據(jù)集無需人為標注,零成本,易于收集和進行規(guī)模提升;另一種是具有 6DoF 相機位姿的數(shù)據(jù)集,該類數(shù)據(jù)集通常通過自動駕駛車進行收集,收集成本較高。該工作以前者為基準開展研究,即在僅有 GPS 標簽的情況下進行基于檢索的圖像定位算法研究。

圖像檢索的關(guān)鍵在于如何學(xué)習(xí)到具有辨別性的圖像特征,而在模型的訓(xùn)練中往往都需要有正樣本和負樣本。具體來說,模型需要學(xué)習(xí)讓目標圖像的特征靠近正樣本而遠離負樣本。在僅有 GP S的圖像定位數(shù)據(jù)集中,我們可以首先通過 GPS 進行篩選,比如 GPS 相距 10m 以內(nèi)的圖像為潛在正樣本(Potential Positives)。

但是,如下圖所示,當?shù)乩砦恢蒙陷^近(GPS 較近)的圖像在面向不同方向時,并不會拍攝到同樣的場景,所以僅靠 GPS 進行過濾的潛在正樣本中仍然具有很多假性正樣本(False Positives)。所以在模型訓(xùn)練中,這被定義為一個弱監(jiān)督學(xué)習(xí)問題。

以前的方法

如果在訓(xùn)練中讓目標圖像靠近假的正樣本,會導(dǎo)致嚴重的誤差放大,乃至模型崩潰。所以,如下圖所示,現(xiàn)有的訓(xùn)練算法 [2, 3] 讓目標圖像靠近潛在正樣本中特征距離最近的圖像,也被稱為 top-1/最相似圖像。

雖然這樣的方法可以有效減少假性正樣本出現(xiàn)的概率,但是,讓模型學(xué)習(xí)靠近已經(jīng)是最相似(也就是最簡單)的正樣本,會使得訓(xùn)練的模型缺乏適應(yīng)多種條件(光照、角度等等)的能力,降低模型的魯棒性。

動機

我們認為,困難的正樣本(Difficult Positives)在表征學(xué)習(xí)中不可缺少。但是,簡單地使用 top-k 圖像(這里 top-k 指的是利用特征距離進行排序后的 top-k 數(shù)據(jù)庫圖像)作為正樣本進行學(xué)習(xí)具有較大的噪聲。

如下圖所示,top-k 的圖像中無法避免地包含一些假性正樣本,在對比實驗中我們也發(fā)現(xiàn),簡單地采用 top-k 圖像進行訓(xùn)練,結(jié)果還不如上述只學(xué)習(xí) top-1 的現(xiàn)有方法。所以,問題的關(guān)鍵在于,如何合理地使用 top-k 圖像,在挖掘困難正樣本的同時,減輕假性正樣本對模型訓(xùn)練帶來的干擾。

解決方法

我們提出利用目標圖像與數(shù)據(jù)庫圖像之間的相似性作為軟標簽對模型訓(xùn)練進行監(jiān)督。具體來說,對于假性正樣本,或具有較小重疊區(qū)域的正樣本,我們希望設(shè)置較小的相似性標簽;而針對與目標圖像重疊區(qū)域較大的正樣本,我們希望設(shè)置較大的相似性標簽。這樣的話,在相似性標簽的監(jiān)督下,模型可以模擬出目標圖像與不同匹配圖像之間距離關(guān)系,從而有針對性地進行表征學(xué)習(xí)。

那么,如何獲得相似性標簽?zāi)?#xff1f;直接通過當前模型的數(shù)據(jù)進行預(yù)測是不可行的,這就類似于自己站在自己的腳上,既沒有夠到更高的區(qū)域,反而會站不穩(wěn)(導(dǎo)致誤差放大)。所以,我們提出,通過迭代訓(xùn)練(Training in Generations)的方案,將第一代模型的輸出作為第二代模型的監(jiān)督,以此類推。

請注意,這里的“代”指的是一個模型從初始化訓(xùn)練到收斂的整個過程。如下圖所示,第一代模型通過與現(xiàn)有算法一致的方案進行訓(xùn)練,訓(xùn)練收斂后,建立并初始化第二代模型,并使用固定的第一代模型進行相似度標簽的估計,用以訓(xùn)練第二代模型。預(yù)測的相似度標簽準確性和模型的辨別性隨著訓(xùn)練的迭代不斷更新和提升,從而形成自監(jiān)督的過程。

迭代訓(xùn)練的思路與自蒸餾(Self-distillation)的算法 [4, 5] 比較相關(guān),不同的是,自蒸餾的算法主要針對分類問題,對具有固定類別數(shù)目的分類預(yù)測值進行蒸餾,而我們成功地將迭代訓(xùn)練的思路應(yīng)用于圖像檢索問題,在表征學(xué)習(xí)的過程中利用我們提出的相似性標簽進行信息迭代。具體公式在這里就不做展示了,感興趣的同學(xué)可以查閱原論文。

挑戰(zhàn) #2

問題與動機

上文,我們討論了如何合理地挖掘困難正樣本,并減輕假性正樣本對訓(xùn)練造成的干擾。但是,我們發(fā)現(xiàn),即使是真的正樣本,與目標圖像之間仍然存在不重疊的區(qū)域,該區(qū)域在困難正樣本中尤為顯著。

如下圖左邊所示,只使用圖像級的監(jiān)督會使得目標圖像與正樣本圖像的所有局部特征都趨向于相似,這樣的監(jiān)督會損害局部特征的辨別性學(xué)習(xí)。所以,我們提出,理想的監(jiān)督應(yīng)當為區(qū)域級的監(jiān)督,如下圖右邊所示,讓正樣本中的正區(qū)域(Positive Regions)靠近目標圖像,而負區(qū)域(Negative Regions)遠離目標圖像。

解決方法

為了實現(xiàn)區(qū)域級的監(jiān)督,我們將匹配的正樣本分解為 4 個二分之一區(qū)域和 4 個四分之一區(qū)域,并將圖像-圖像間的相似性監(jiān)督細粒化為圖像-區(qū)域間的相似性監(jiān)督,以上文中所述迭代訓(xùn)練的方式進行學(xué)習(xí)。具體來說,第一代模型所預(yù)測的圖像-區(qū)域的相似性標簽用于監(jiān)督第二代模型的圖像-區(qū)域?qū)W習(xí)。

實驗結(jié)果

下圖是實驗結(jié)果,我們的模型只在一個數(shù)據(jù)集(Pitts30k-train)上進行了訓(xùn)練,可以很好地泛化到不同的測試集上,例如在 Tokyo 24/7 和 Pitts250k-test 上均取得了最先進的精度。其中,Tokyo 24/7 數(shù)據(jù)集難度最大,因為圖像的光照、角度、拍攝裝置等條件都具有很強的多樣性,我們在 Recall@1 準確度上超出此前最先進的 SARE 算法(發(fā)表于 ICCV’19)5.7% 個點。

上圖中的模型及訓(xùn)練測試代碼均已開源。同時,我們還開源了基于 PyTorch 的 NetVLAD [2] 和 SARE [3] 復(fù)現(xiàn)(官方代碼基于 MatConvNet),方便大家后續(xù)的研究與開發(fā),歡迎大家 watch/star/fork。

參考文獻

[1] Y. Ge, et al. Self-supervising Fine-grained Region Similarities for Large-scale Image Localization. ECCV, 2020.?

[2] R. Arandjelovic, et al. NetVLAD: CNN architecture for weakly supervised place recognition. CVPR, 2016.?

[3] L. Liu, et al. Stochastic Attraction-Repulsion Embedding for Large Scale Image Localization. ICCV, 2019.?

[4] T. Furlanello, et al. Born Again Neural Networks. ICML, 2018.?

[5] Q. Xie, et al. Self-training with noisy student improves imagenet classification. CVPR, 2020.

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。