日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)

發布時間:2024/7/23 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近看transformer用于CV比較熱門,特意去進行了解,這里用分類的一篇文章進行講解。

NLP中的transformer和代碼講解參考我另一篇文章。

論文鏈接:AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

一.思想

其實核心問題就是考慮如何把圖像數據H*W*C,序列化成一個一個詞那種結構,自然就想到將圖片crop成一個一個patch,假設有N個patch,維度為p*p*C,reshape加concate一下就變成個N*p^2C,也就類似詞向量。

二.模型結構

如下圖所示:

1.圖像轉序列

將圖片H*W*C,crop成N個patch,然后在轉換成N*(p^2C),同時為了避免模型結構受到patch size的影響,采用Linear project將不同flatten patchs轉換成D維向量。這樣的話輸入圖片數據就成了N*D二維矩陣就和詞向量矩陣對應上了。

2.Position embeddings

作者用一個可學習的embedding向量去將圖像位置信息加入到序列中。

3.learnable embedding

上圖中,帶*號的粉色框是一個可學習的embedding,記住Xclass,經過encoder后的結果作為整張圖像的表示。之所以不用其中一個patch的embedding是因為,這種embedding不可避免帶有path的信息,而新增的這個沒有語義信息,能更佳反映整張圖片。

4.輸入transformer encoder

進行特征提取,我另一篇文章已經很詳細了,這里就不贅述了。

整個公式如下:

三.實驗結果:

在中等數據集(例如ImageNet),效果不如resnet,但是在大規模數據集上,表現更佳。

?

總結

以上是生活随笔為你收集整理的AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(VIT)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。