當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset

發(fā)布時(shí)間：2025/3/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.Contribution

（1）主要是提出了基于GTA5的GCC數(shù)據(jù)集

數(shù)據(jù)集下載地址：

https://gjy3035.github.io/GCC-CL/?gjy3035.github.io

（2）提出了在如何在GCC上train，然后在傳統(tǒng)的通用數(shù)據(jù)集上test的遷移學(xué)習(xí)方案，方案基于Cycle GAN，提出了SE Cycle GAN

（3）也提出了他們自己的counting模型SFCN，不過(guò)該模型本身不是亮點(diǎn)

2.GCC dataset

提出GCC數(shù)據(jù)集的目的是當(dāng)前已經(jīng)有的數(shù)據(jù)集圖片數(shù)量太少，很容易o(hù)verfitting，基于GTA5場(chǎng)景制作出的GCC數(shù)據(jù)集，擁有豐富的場(chǎng)景，大量的圖片。

（1）場(chǎng)景的選擇

基于GTA5，選擇了100個(gè)地點(diǎn)，然后每個(gè)地點(diǎn)通過(guò)改變相機(jī)的位姿，最終獲得400個(gè)場(chǎng)景，然后通過(guò)不同的ROI獲得不同的圖片

（2）人模型的設(shè)計(jì)

選擇了265個(gè)人的模型，每個(gè)人的模型有不同的膚色，性別，形狀，然后又衣服，發(fā)型等6個(gè)不同的外觀參數(shù)，在場(chǎng)景中采用隨機(jī)的動(dòng)作

（3）場(chǎng)景合成

原始GTA5每個(gè)場(chǎng)景不超過(guò)256人，為了產(chǎn)生人多的圖片，需要進(jìn)行場(chǎng)景合成，就是將不同場(chǎng)景下的人拼到一塊兒

最終人數(shù)分布如下：

（4）添加了不同環(huán)境因素

通過(guò)設(shè)置不同的時(shí)間因素，以及天氣因素，產(chǎn)生不同的環(huán)境：

（5）如何利用GCC數(shù)據(jù)集

①先在GCC在pretain，然后在其他數(shù)據(jù)集上進(jìn)行fine-tune，有點(diǎn)在利用在ImageNet上pretrain模型的意思

②在GCC上train，然后直接在其他數(shù)據(jù)集上，不過(guò)中間利用了SE CycleGAN去將GCC的圖片色調(diào)改成了測(cè)試數(shù)據(jù)集的風(fēng)格，才去train，和test

3.SFCN

（1）模型配置

為了進(jìn)行counting，本文也提出了自己的counting模型SFCN（Spatial FCN）：

就是一個(gè)簡(jiǎn)單的單列全卷積，encoder-decoder的結(jié)構(gòu)

提出了采用兩種不同backbone的模型，這里有個(gè)特殊的部分為Spatial Encoder結(jié)構(gòu)，是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的，具體看那篇paper

基本上backbone+Dilation conv+spatial encoder+upsample4個(gè)結(jié)構(gòu)

采用1e-5的lr，Adam+MSE

（2）ablation study

①在GCC上訓(xùn)練的情況，采用了三種不同的訓(xùn)練集測(cè)試集劃分方法：

第一種是75%train，25%test，第二種是每個(gè)場(chǎng)景（共4個(gè)相機(jī)），1個(gè)相機(jī)用來(lái)test，其他3個(gè)用來(lái)train，第三種是以場(chǎng)景為單位，75個(gè)場(chǎng)景做train，25個(gè)場(chǎng)景做test

②在GCC上pretrain，在其他數(shù)據(jù)集上fine tune

感覺(jué)如果不用ResNet做backbone，效果不如用了ImageNet的CSRNet

4.SE CycleGAN & DA

DA是domain adaption，就是領(lǐng)域自適應(yīng)，有點(diǎn)像遷移學(xué)習(xí)，要在讓在數(shù)據(jù)集A上train的模型，更好地在數(shù)據(jù)集B上test，本文要做到的就是如何在GCC上train，然后在其他數(shù)據(jù)集上獲得更好的效果

之所以要提到DA這個(gè)概念是因?yàn)镚TA的圖片太卡通了，相比于實(shí)際場(chǎng)景，有一定Gap

（1）SE Cycle GAN

本文采用SE CycleGAN，其實(shí)就是給CycleGAN添加了SSIM的loss

根據(jù)CycleGAN的原理，GCC的圖片要通過(guò)一個(gè)Generator，產(chǎn)生于另一個(gè)數(shù)據(jù)集風(fēng)格相似的圖片，并讓對(duì)應(yīng)的distriminator去判斷，然后又用另一個(gè)Generator轉(zhuǎn)變回來(lái)，期望轉(zhuǎn)變過(guò)去又轉(zhuǎn)變回來(lái)的圖片跟原來(lái)的圖片越相似越好，

同理，另一條路是從另一個(gè)數(shù)據(jù)集轉(zhuǎn)變到GCC的風(fēng)格，再轉(zhuǎn)變回去，采用的loss如下：

LGAN是Discriminator判斷的loss，Lcycle是轉(zhuǎn)變過(guò)去又轉(zhuǎn)變回來(lái)的比較相似度的loss，λ是多少?zèng)]說(shuō)

因?yàn)橐容^圖像相似度，參考SANet采用SSIM作為loss，本文引入了SSIM作為loss，將CycleGAN轉(zhuǎn)變?yōu)镾E CycleGAN：

μ設(shè)置為1

用了SE CycleGAN風(fēng)格轉(zhuǎn)換結(jié)果如下：

（2）Density/Scene Regulation

Density Regulation，為了防止density map某些點(diǎn)預(yù)測(cè)了很大的值這種現(xiàn)象，本文設(shè)置了density map每個(gè)點(diǎn)出值得上限，超過(guò)這個(gè)上限，就把這個(gè)點(diǎn)設(shè)為0

Scene Regulation是對(duì)于不同的測(cè)試數(shù)據(jù)集，比如WorldExpo10，其人數(shù)不超過(guò)500，那么在GCC中也要選擇少人數(shù)的場(chǎng)景圖片進(jìn)行train

（3）ablation Study

①用不用CycleGAN進(jìn)行風(fēng)格轉(zhuǎn)換的對(duì)比

發(fā)現(xiàn)如果沒(méi)有Density/Scene Regulation，加了GAN反而效果變差了，可能是因?yàn)榧恿薌AN導(dǎo)致圖像變模糊，帶來(lái)了一些細(xì)節(jié)的丟失

5.評(píng)價(jià)

本文最大的亮點(diǎn)在于提出了GCC數(shù)據(jù)集，在這上面pretrain是否能取代ImageNet，似乎持保留意見(jiàn)，不過(guò)對(duì)于容易o(hù)verfitting的counting社區(qū)來(lái)說(shuō)，確實(shí)是一個(gè)不錯(cuò)的數(shù)據(jù)集

總結(jié)

以上是生活随笔為你收集整理的crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： hp246笔记本怎么盘启动 hp246
下一篇： helm安装postgres_Helm