日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset

發布時間:2025/3/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Contribution

(1)主要是提出了基于GTA5的GCC數據集

數據集下載地址:

https://gjy3035.github.io/GCC-CL/?gjy3035.github.io

(2)提出了在如何在GCC上train,然后在傳統的通用數據集上test的遷移學習方案,方案基于Cycle GAN,提出了SE Cycle GAN

(3)也提出了他們自己的counting模型SFCN,不過該模型本身不是亮點

2.GCC dataset

提出GCC數據集的目的是當前已經有的數據集圖片數量太少,很容易overfitting,基于GTA5場景制作出的GCC數據集,擁有豐富的場景,大量的圖片。

(1)場景的選擇

基于GTA5,選擇了100個地點,然后每個地點通過改變相機的位姿,最終獲得400個場景,然后通過不同的ROI獲得不同的圖片

(2)人模型的設計

選擇了265個人的模型,每個人的模型有不同的膚色,性別,形狀,然后又衣服,發型等6個不同的外觀參數,在場景中采用隨機的動作

(3)場景合成

原始GTA5每個場景不超過256人,為了產生人多的圖片,需要進行場景合成,就是將不同場景下的人拼到一塊兒

最終人數分布如下:

(4)添加了不同環境因素

通過設置不同的時間因素,以及天氣因素,產生不同的環境:

(5)如何利用GCC數據集

①先在GCC在pretain,然后在其他數據集上進行fine-tune,有點在利用在ImageNet上pretrain模型的意思

②在GCC上train,然后直接在其他數據集上,不過中間利用了SE CycleGAN去將GCC的圖片色調改成了測試數據集的風格,才去train,和test

3.SFCN

(1)模型配置

為了進行counting,本文也提出了自己的counting模型SFCN(Spatial FCN):

就是一個簡單的單列全卷積,encoder-decoder的結構

提出了采用兩種不同backbone的模型,這里有個特殊的部分為Spatial Encoder結構,是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的,具體看那篇paper

基本上backbone+Dilation conv+spatial encoder+upsample4個結構

采用1e-5的lr,Adam+MSE

(2)ablation study

①在GCC上訓練的情況,采用了三種不同的訓練集測試集劃分方法:

第一種是75%train,25%test,第二種是每個場景(共4個相機),1個相機用來test,其他3個用來train,第三種是以場景為單位,75個場景做train,25個場景做test

②在GCC上pretrain,在其他數據集上fine tune

感覺如果不用ResNet做backbone,效果不如用了ImageNet的CSRNet

4.SE CycleGAN & DA

DA是domain adaption,就是領域自適應,有點像遷移學習,要在讓在數據集A上train的模型,更好地在數據集B上test,本文要做到的就是如何在GCC上train,然后在其他數據集上獲得更好的效果

之所以要提到DA這個概念是因為GTA的圖片太卡通了,相比于實際場景,有一定Gap

(1)SE Cycle GAN

本文采用SE CycleGAN,其實就是給CycleGAN添加了SSIM的loss

根據CycleGAN的原理,GCC的圖片要通過一個Generator,產生于另一個數據集風格相似的圖片,并讓對應的distriminator去判斷,然后又用另一個Generator轉變回來,期望轉變過去又轉變回來的圖片跟原來的圖片越相似越好,

同理,另一條路是從另一個數據集轉變到GCC的風格,再轉變回去,采用的loss如下:

LGAN是Discriminator判斷的loss,Lcycle是轉變過去又轉變回來的比較相似度的loss,λ是多少沒說

因為要比較圖像相似度,參考SANet采用SSIM作為loss,本文引入了SSIM作為loss,將CycleGAN轉變為SE CycleGAN:

μ設置為1

用了SE CycleGAN風格轉換結果如下:

(2)Density/Scene Regulation

Density Regulation,為了防止density map某些點預測了很大的值這種現象,本文設置了density map每個點出值得上限,超過這個上限,就把這個點設為0

Scene Regulation是對于不同的測試數據集,比如WorldExpo10,其人數不超過500,那么在GCC中也要選擇少人數的場景圖片進行train

(3)ablation Study

①用不用CycleGAN進行風格轉換的對比

發現如果沒有Density/Scene Regulation,加了GAN反而效果變差了,可能是因為加了GAN導致圖像變模糊,帶來了一些細節的丟失

5.評價

本文最大的亮點在于提出了GCC數據集,在這上面pretrain是否能取代ImageNet,似乎持保留意見,不過對于容易overfitting的counting社區來說,確實是一個不錯的數據集

總結

以上是生活随笔為你收集整理的crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。