日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

【AI-1000问】为什么深度学习图像分类的输入多是224*224

發(fā)布時(shí)間:2025/3/20 ChatGpt 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【AI-1000问】为什么深度学习图像分类的输入多是224*224 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章首發(fā)于微信公眾號(hào)《有三AI》

【AI-1000問】為什么深度學(xué)習(xí)圖像分類的輸入多是224*224

寫在前邊的通知

大家好,今天這又是一個(gè)新專欄了,名叫《有三AI 1000問》,顧名思義,就是以問題為主了!

那我們這個(gè)新專欄會(huì)有什么特色呢?主要從內(nèi)容選擇,目標(biāo)受眾,創(chuàng)作風(fēng)格三個(gè)方面來(lái)講述。

?

1、內(nèi)容選擇

因?yàn)槲覀冇芯C述專欄,有各種垂直領(lǐng)域的非常詳細(xì)的文章,所以從內(nèi)容選擇上,我們這一個(gè)專欄不會(huì)選擇那些“大”問題,不會(huì)選擇需要長(zhǎng)篇分析的問題,也不會(huì)選擇需要很強(qiáng)的實(shí)踐操作的問題。

內(nèi)容選擇的標(biāo)準(zhǔn)是:

  • 技術(shù)相關(guān)

  • 足夠聚焦

  • 容易被忽視

  • 普通但是不簡(jiǎn)單

  • 可以引申很多思考

不會(huì)入選的內(nèi)容比如:“目標(biāo)檢測(cè)的最新進(jìn)展”,“tensorflow的最新API”,“Mask RCNN文章閱讀”等等之類的文章。

會(huì)入選的內(nèi)容比如:“為什么圖像分類輸入大小多是224*224”,“為什么卷積神經(jīng)網(wǎng)絡(luò)要使用池化”。

?

2、目標(biāo)受眾

我認(rèn)為未來(lái)機(jī)器學(xué)習(xí)技術(shù)/AI技術(shù)是每一個(gè)人都可以掌握,使用的技術(shù),因此,我們這一個(gè)專欄不再只是面向從事相關(guān)工作的朋友,不會(huì)像其他專欄的文章那樣對(duì)基礎(chǔ)要求高。

目標(biāo)受眾包括:

  • AI領(lǐng)域從業(yè)技術(shù)人員

  • 其他計(jì)算機(jī)領(lǐng)域從業(yè)人員

  • AI技術(shù)業(yè)余愛好者

?

3、創(chuàng)作風(fēng)格

這一個(gè)專欄以引導(dǎo)思考,普及知識(shí)為主,希望減輕閱讀負(fù)擔(dān),因此不會(huì)像其他系列文章那樣清晰地劃分段落,也會(huì)適當(dāng)?shù)亟档蛢?nèi)容的深度。

創(chuàng)作風(fēng)格是:

  • 不嚴(yán)格劃分小節(jié)

  • 平衡內(nèi)容深度和可閱讀性

好了,具體內(nèi)容就參考我們的第一期吧,希望你喜歡。

為什么深度學(xué)習(xí)圖像分類里的圖片的輸入大小都是224*224呢?

做過圖像分類項(xiàng)目或者看過文章的小伙伴們應(yīng)該都知道,在論文中進(jìn)行各類方法的比較時(shí),要求使用同樣的數(shù)據(jù)集。而為了公平的比較,網(wǎng)絡(luò)的輸入大小通常都是224*224的大小,那為什么呢?有同學(xué)思考過這個(gè)問題嗎?

作者/編輯 言有三

?

我們都知道,一個(gè)圖像分類模型,在圖像中經(jīng)歷了下面的流程。

從輸入image->卷積和池化->最后一層的feature map->全連接層->損失函數(shù)層softmax loss。

從輸入到最后一個(gè)卷積特征feature map,就是進(jìn)行信息抽象的過程,然后就經(jīng)過全連接層/全局池化層的變換進(jìn)行分類了,這個(gè)feature map的大小,可以是3*3,5*5,7*7等等。

解答1:在這些尺寸中,如果尺寸太小,那么信息就丟失太嚴(yán)重,如果尺寸太大,信息的抽象層次不夠高,計(jì)算量也更大,所以7*7的大小是一個(gè)最好的平衡。

另一方面,圖像從大分辨率降低到小分辨率,降低倍數(shù)通常是2的指數(shù)次方,所以圖像的輸入一定是7*2的指數(shù)次方。以ImageNet為代表的大多數(shù)分類數(shù)據(jù)集,圖像的長(zhǎng)寬在300分辨率左右。

解答2:所以要找一個(gè)7*2的指數(shù)次方,并且在300左右的,其中7*2的4次方=7*16=112,7*2的5次方等于7*32=224,7*2的6次方=448,與300最接近的就是224了。

這就是最重要的原因了,當(dāng)然了對(duì)于實(shí)際的項(xiàng)目來(lái)說(shuō),有的不需要這么大的分辨率,比如手寫數(shù)字識(shí)別MNIST就用32*32,有的要更大,比如細(xì)粒度分類。

?

思考

今天的問題就到這里了,不知道,你有沒有留意過不同的輸入大小對(duì)分類器性能的影響呢

轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系

侵權(quán)必究

感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上,歡迎大家關(guān)注有三公眾號(hào) 有三AI

總結(jié)

以上是生活随笔為你收集整理的【AI-1000问】为什么深度学习图像分类的输入多是224*224的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。