日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

比SOTA模型更全能!商汤科技和上海人工智能实验室联手打造统一模型架构UniFormer...

發(fā)布時(shí)間:2024/10/8 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 比SOTA模型更全能!商汤科技和上海人工智能实验室联手打造统一模型架构UniFormer... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

UniFormer用Transformer將3D卷積和時(shí)空自注意力有效地統(tǒng)一,是目前最強(qiáng)最快的視頻理解架構(gòu)。

本文主要向大家介紹UniFormer,包括ICLR2022接受的video backbone,以及為下游密集預(yù)測(cè)任務(wù)設(shè)計(jì)的拓展版本。本套框架在各種任務(wù)上都能取得了比現(xiàn)有SOTA模型更好的性能。

目前UniFormer框架代碼、模型、日志以及訓(xùn)練腳本都已開源,歡迎大家試用反饋!

?UniFormer代碼鏈接:

https://github.com/Sense-X/UniFormer

🪐論文標(biāo)題:

UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning

🪐論文鏈接:

https://arxiv.org/abs/2201.04676

🪐擴(kuò)展版本:

UniFormer: Unifying Convolution and Self-attention for Visual Recognition

https://arxiv.org/abs/2201.09450

🪐代碼鏈接:

https://github.com/Sense-X/UniFormer

相對(duì)SOTA,UniFormer的性能提升

1

圖像分類

在Token Labeling 的加持下,僅靠ImageNet-1K訓(xùn)練。

39GFLOPs的UniFormer-L-384在ImageNet上實(shí)現(xiàn)了86.3%的top-1精度

統(tǒng)一模型架構(gòu)UniFormer

2

視頻分類

僅用ImageNet-1K預(yù)訓(xùn)練,UniFormer-B在Kinetics-400和Kinetics-600上分別取得了82.9%和84.8% 的top-1精度(比使用JFT-300M預(yù)訓(xùn)練,相近性能的ViViT 的GFLOPs少16倍)。

在Something-Something V1和V2上分別取得60.9%和71.2%的top-1精度,為同期模型的SOTA。

統(tǒng)一模型架構(gòu)UniFormer

3

密集預(yù)測(cè)

僅用ImageNet-1K預(yù)訓(xùn)練,COCO目標(biāo)檢測(cè)任務(wù)上取得了53.8的box AP與46.4的mask AP;ADE20K語(yǔ)義分割任務(wù)上取得了50.8的mIoU;COCO姿態(tài)估計(jì)任務(wù)上取得了77.4的AP。后文將會(huì)介紹為下游任務(wù)設(shè)計(jì)的訓(xùn)練和測(cè)試時(shí)模型適配。

點(diǎn)擊可看高清大圖

圖注:

圖像分類與視頻分類任務(wù)性能比較(上方為ImageNet上224x224與384x384分辨率輸入)

統(tǒng)一模型架構(gòu)UniFormer

UniFormer設(shè)計(jì)靈感

對(duì)image和video上的representation learning而言,目前存在兩大痛點(diǎn):

  • local redundancy:

    視覺數(shù)據(jù)在局部空間/時(shí)間/時(shí)空鄰域具有相似性,這種局部性質(zhì)容易引入大量低效的計(jì)算。

  • global dependency:

    要實(shí)現(xiàn)準(zhǔn)確的識(shí)別,需要?jiǎng)討B(tài)地將不同區(qū)域中的目標(biāo)關(guān)聯(lián),建模長(zhǎng)時(shí)依賴。

現(xiàn)有的兩大主流模型CNN和ViT,往往只關(guān)注解決以上部分問題。

Convolution只在局部小鄰域聚合上下文,天然地避免了冗余的全局計(jì)算,但受限的感受也難以建模全局依賴。

而self-attention通過比較全局相似度,自然將長(zhǎng)距離目標(biāo)關(guān)聯(lián),但通過如下可視化我們可以發(fā)現(xiàn),ViT在淺層編碼局部特征十分低效。

圖注:

DeiT可視化后,可以發(fā)現(xiàn)即便經(jīng)過三層self-attention,輸出特征仍保留了較多的局部細(xì)節(jié)。我們?nèi)芜x一個(gè)token作為query,可視化attention矩陣可以發(fā)現(xiàn),被關(guān)注的token集中在3x3鄰域中(紅色越深表示關(guān)注越多)

圖注:

TimeSformer可視化后,同樣可以發(fā)現(xiàn)即便是經(jīng)過三層self-attention,輸出的每一幀特征仍保留了較多的局部細(xì)節(jié)。我們?nèi)芜x一個(gè)token作為query,可視化spatial attention和temporal attention矩陣都可以發(fā)現(xiàn),被關(guān)注的token都只在局部鄰域中(紅色越深表示關(guān)注越多)。

無論是spatial attention抑或是temporal attention,在ViT的淺層,都僅會(huì)傾向于關(guān)注query token的鄰近token。

但是attention矩陣是通過全局token相似度計(jì)算得到的,這無疑帶來了大量不必要的計(jì)算。相較而言,convolution在提取這些淺層特征時(shí),無論是在效果上還是計(jì)算量上都具有顯著的優(yōu)勢(shì)。

那么為何不針對(duì)網(wǎng)絡(luò)不同層特征的差異,設(shè)計(jì)不同的特征學(xué)習(xí)算子,從而將convolution和self-attention有機(jī)地結(jié)合,物盡其用呢?

本論文中提出的UniFormer (Unified Transformer),旨在以Transformer的風(fēng)格,有機(jī)地統(tǒng)一convolutionself-attention,發(fā)揮二者的優(yōu)勢(shì),同時(shí)解決local redundancyglobal dependency兩大問題,從而實(shí)現(xiàn)高效的特征學(xué)習(xí)。

UniFormer模型架構(gòu)

圖注:

模型整體框架,標(biāo)紅維度僅對(duì)video輸入作用,對(duì)image輸入都可視作1

模型整體框架如上圖所示,借鑒了CNN的層次化設(shè)計(jì),每層包含多個(gè)Transformer風(fēng)格的UniFormer block

🪐UniFormer block:

每個(gè)UniFormer block主要由三部分組成,動(dòng)態(tài)位置編碼DPE、多頭關(guān)系聚合器MHRA及Transformer必備的前饋層FFN,其中最關(guān)鍵的為多頭關(guān)系聚合器:

🪐MHRA:

與多頭注意力相似,將關(guān)系聚合器設(shè)計(jì)為多頭風(fēng)格,每個(gè)頭單獨(dú)處理一組channel的信息。

每組的channel先通過線性變換生成上下文token,然后在token affinity的作用下,對(duì)上下文進(jìn)行有機(jī)聚合。

基于前面的可視化觀察,可以認(rèn)為在網(wǎng)絡(luò)的淺層,token affinity應(yīng)該僅關(guān)注局部鄰域上下文,這與convolution的設(shè)計(jì)不謀而合。因此,將局部關(guān)系聚合設(shè)計(jì)為可學(xué)的參數(shù)矩陣:

🪐local MHRA:

其中為anchor token,為局部鄰域任一token,為可學(xué)參數(shù)矩陣,為二者相對(duì)位置,表明token affinity的值只與相對(duì)位置有關(guān)。

這樣local UniFormer block實(shí)際上與MobileNet block 的設(shè)計(jì)風(fēng)格相似,都是PWConv-DWConv-PWConv(見原論文解析),不同的是我們引入了額外的位置編碼以及前饋層,這種特別的結(jié)合形式有效地增強(qiáng)了token的特征表達(dá)。

在網(wǎng)絡(luò)的深層,需要對(duì)整個(gè)特征空間建立長(zhǎng)時(shí)關(guān)系,這與self-attention的思想一致,因此我們通過比較全局上下文相似度建立token affinity:

🪐global MHRA:

其中為不同的線性變換。先前的video transformer,往往采用時(shí)空分離的注意力機(jī)制 ,以減少video輸入帶來的過量點(diǎn)積運(yùn)算,但這種分離的操作無疑割裂了token的時(shí)空關(guān)聯(lián)。

相反,我們的UniFormer在網(wǎng)絡(luò)的淺層采用local MHRA節(jié)省了冗余計(jì)算量,使得網(wǎng)絡(luò)在深層可以輕松使用聯(lián)合時(shí)空注意力,從而可以得到更具辨別性的video特征表達(dá)。

再者,與以往ViT中使用絕對(duì)位置編碼不同,我們這里采用卷積風(fēng)格的動(dòng)態(tài)位置編碼,使得網(wǎng)絡(luò)可以克服permutation-invariance的同時(shí),對(duì)不同長(zhǎng)度的輸入更友好。

流行的ViT往往采用絕對(duì)或者相對(duì)位置編碼 ,但絕對(duì)位置編碼在面對(duì)更大分辨率的輸入時(shí),需要進(jìn)行線性插值以及額外的參數(shù)微調(diào),而相對(duì)位置編碼對(duì)self-attention的形式進(jìn)行了修改。

為了適配不同分辨率輸入的需要,采用了最近流行的卷積位置編碼設(shè)計(jì)動(dòng)態(tài)位置編碼:

🪐DPE:

其中DWConv為零填充的的深度可分離卷積。

一方面,卷積對(duì)任何輸入形式都很友好,也很容易拓展到空間維度統(tǒng)一編碼時(shí)空位置信息。

另一方面,深度可分離卷積十分輕量,額外的零填充可以幫助每個(gè)token確定自己的絕對(duì)位置。

UniFormer整體框架

🪐圖像分類:

模型細(xì)節(jié)

我們?cè)O(shè)計(jì)了三種不同規(guī)模的模型,每個(gè)模型包含4層,前兩層使用local MHRA,后兩層使用global MHRA

對(duì)于local MHRA,卷積核大小為5x5,歸一化使用BN(使用LN性能較差)。

對(duì)于global MHRA,每個(gè)head的channel數(shù)為64,歸一化使用LN。動(dòng)態(tài)位置編碼卷積核大小為3x3,FFN的拓展倍數(shù)為4。

對(duì)于特征下采樣,我們采用非重疊卷積,其中第一次下采樣卷積核大小為4x4、步長(zhǎng)為4x4,其余三次下采樣卷積核大小為2x2、步長(zhǎng)為2x2。

在每次下采樣卷積之后,額外增加LN歸一化。網(wǎng)絡(luò)最后接平均池化層與線性分類層,輸出最終預(yù)測(cè)。當(dāng)使用Token Labeling時(shí),額外加入一個(gè)線性分類層以及輔助損失函數(shù)。

對(duì)于UniFormer-S,我們?cè)O(shè)計(jì)了增強(qiáng)版本,每層block數(shù)量為[3, 5, 9, 3],下采樣使用重疊卷積,FLOPs控制為4.2G,保證與其他SOTA模型可比。

🪐視頻分類:

對(duì)于video使用的3D backbone,通過加載ImageNet-1K預(yù)訓(xùn)練的UniFormer-SUniFormer-B,并進(jìn)行卷積核展開。

具體來說,動(dòng)態(tài)位置編碼和local MHRA分別展開為3x3x3和5x5x5卷積。

對(duì)于下采樣層,只在第一次下采樣同時(shí)壓縮時(shí)間和空間維度,而在其余三次下采樣僅壓縮空間維度,即第一次下采樣卷積核大小為3x4x4、步長(zhǎng)為2x4x4,其余卷積核大小為1x2x2、步長(zhǎng)為1x2x2。這樣就可以在減少計(jì)算量的同時(shí),還能保證模型的高性能。

對(duì)于global MHRA,直接繼承相應(yīng)參數(shù),將時(shí)空token序列化進(jìn)行統(tǒng)一處理。

🪐密集預(yù)測(cè):

對(duì)于下游密集預(yù)測(cè)任務(wù),直接使用原始網(wǎng)絡(luò)作為backbone并不合適。

因?yàn)檫@些任務(wù)往往輸入大分辨率圖像,比如目標(biāo)檢測(cè)中輸入1333x800的圖像,使用global MHRA會(huì)帶來過多的計(jì)算量。

我們以UniFormer-S為例,統(tǒng)計(jì)了不同分辨率輸入時(shí),不同操作所需的計(jì)算量。

圖注:

左邊圖片為模型整體計(jì)算量與第三/四層中MatMul運(yùn)算所需計(jì)算量的結(jié)果;右邊圖片為第三層采用不同風(fēng)格的MHRA所需的MatMul計(jì)算量的結(jié)果

從上圖中可以看到,第三層中MHRA所需的MatMul運(yùn)算隨著分辨率的增加而急劇上升,在輸入分辨率為1008x1008時(shí),甚至占了總運(yùn)算量50%以上,而第四層僅為第三層的1/28。因此,僅對(duì)第三層的MHRA進(jìn)行改進(jìn)。

受先前工作的啟發(fā),將global MHRA應(yīng)用在限制的窗口內(nèi),這樣會(huì)把原本的復(fù)雜度降至,其中p為窗口大小。

然而直接應(yīng)用純window化操作,不可避免地會(huì)帶來性能下降,為此我們將windowglobal操作結(jié)合。

每個(gè)hybrid分組中包含4個(gè)block,前3個(gè)為window block,最后1個(gè)為global block。UniFormer-S和UniFormer-B分別包含2個(gè)和5個(gè)分組。

不同任務(wù)在訓(xùn)練和測(cè)試時(shí)使用特定改進(jìn)

如上圖所示,在五種任務(wù)上,訓(xùn)練和測(cè)試采用特定改進(jìn)。

對(duì)目標(biāo)檢測(cè)任務(wù),由于訓(xùn)練和測(cè)試時(shí)輸入分辨率都很大(如1333x800),在第三層都采用hybrid block。

對(duì)姿態(tài)估計(jì)任務(wù),輸入分辨率相對(duì)較小(如384x288),在第三層采用原本的gloabl block。

而對(duì)于語(yǔ)義分割任務(wù),由于往往在測(cè)試時(shí)使用幾倍于訓(xùn)練輸入的分辨率(如2048x512 vs. 512x512),因此在訓(xùn)練時(shí),對(duì)第三層采用global block。

而在測(cè)試時(shí)采用hybrid block,但需要注意測(cè)試時(shí)hybrid block中window size需要與訓(xùn)練時(shí)global block的感受野一致(如32x32),感受野不一致會(huì)導(dǎo)致急劇性能下降。

這種設(shè)計(jì)可以保證訓(xùn)練高效的同時(shí),提高測(cè)試的性能。

實(shí)驗(yàn)結(jié)果

🪐圖像分類:

我們用ImageNet-1K進(jìn)行圖像分類實(shí)驗(yàn),采用了DeiT 的代碼與訓(xùn)練策略,UniFormer-S/B/L使用droppath比例為0.1/0.3/0.4,對(duì)大模型額外加入Layer Scale防止網(wǎng)絡(luò)訓(xùn)練崩潰 。對(duì)于Token Labeling,沿用了其代碼訓(xùn)練框架與超參。

ImageNet-1K

結(jié)果如上所示,其中帶*為加入Token Labaleing進(jìn)行訓(xùn)練,UniFormer-B\dagger為前述UniFormer-B的增強(qiáng)版本。

可以看到UniFormer在不同規(guī)模下都取得了SOTA性能,UniFormer-L-384僅需39G的FLOPs,即可取得86.3%的top-1精度。

🪐視頻分類:

我們?cè)贙inetics-400/600以及Something-Something V1/V2上進(jìn)行了視頻分類實(shí)驗(yàn),沿用了MViT的代碼和訓(xùn)練策略。

對(duì)Kinetics采用dense采樣方式,加載了ImageNet-1K的預(yù)訓(xùn)練模型加速訓(xùn)練,droppath比例保持與前述一致。

對(duì)Sth-Sth采用uniform采樣方式,加載了Kinetics的預(yù)訓(xùn)練,droppath設(shè)置為前述兩倍,并不進(jìn)行水平翻轉(zhuǎn)。

左:Kinetics

?右:Sth-Sth

結(jié)果如上圖所示,僅使用ImageNet-1K預(yù)訓(xùn)練,我們?cè)贙inetics上取得了與使用JFT-300M預(yù)訓(xùn)練的ViViT-L、使用ImageNet-21K預(yù)訓(xùn)練的Swin-B相近的性能,計(jì)算量大幅減小。

而在Sth-Sth上,UniFormer大幅高于先前CNN和ViT的結(jié)果,取得了新的SOTA結(jié)果,在Sth-Sth V1上為61.2%,V2上為71.4%

🪐目標(biāo)檢測(cè)與實(shí)例分割:

我們?cè)贑OCO2017上進(jìn)行了目標(biāo)檢測(cè)和實(shí)例分割實(shí)驗(yàn),沿用了mmdetection 的代碼框架,配置了Mask R-CNN與Cascade Mask R-CNN框架,使用Swin Transformer的訓(xùn)練參數(shù),均取得了SOTA性能。

COCO目標(biāo)檢測(cè),Mask R-CNN

COCO目標(biāo)檢測(cè),Cascade Mask R-CNN

🪐語(yǔ)義分割:

我們?cè)贏DE20K上進(jìn)行了語(yǔ)義分割實(shí)驗(yàn),沿用了mmsegmentation 的代碼框架,配置了Semantic FPN與UperNet兩種框架,分別使用了PVT和Swin的訓(xùn)練參數(shù),均取得了SOTA性能。

ADE20K語(yǔ)義分割

左:Semantic FPN 右:UperNet

🪐人體姿態(tài)估計(jì):

我們?cè)贑OCO2017上進(jìn)行了姿態(tài)估計(jì)實(shí)驗(yàn),沿用了mmpose 的代碼框架,配置了簡(jiǎn)單的Top-down框架,使用了HRFormer的訓(xùn)練參數(shù),取得了SOTA性能。

COCO姿態(tài)估計(jì),Top-down

🪐消融實(shí)驗(yàn):

我們進(jìn)行了詳盡的消融實(shí)驗(yàn),首先在圖像和視頻分類任務(wù)上驗(yàn)證了backbone的結(jié)構(gòu)設(shè)計(jì)。其次,對(duì)video backbone的預(yù)訓(xùn)練、訓(xùn)練以及測(cè)試策略進(jìn)行了探究。最后,驗(yàn)證了下游密集預(yù)測(cè)任務(wù)上改進(jìn)的有效性。

🤖?

Model designs for image and video backbones

結(jié)構(gòu)設(shè)計(jì)

FFN:


首先將local block替換為MobileNet block,其中ReLU替換為GeLU,expand ration設(shè)置為3保持計(jì)算量一致,保留動(dòng)態(tài)編碼以公平比較,可以發(fā)現(xiàn)local block在圖像和視頻分類任務(wù)上都會(huì)明顯優(yōu)于MobileNet block。由此可知transformer風(fēng)格,以及其特有的FFN確實(shí)增強(qiáng)了token的特征表達(dá)。

DPE:

將動(dòng)態(tài)位置編碼去掉,在圖像和視頻任務(wù)上性能均下降,視頻任務(wù)上更是掉了1.7%,由此可知位置編碼有助于更好的時(shí)空特征學(xué)習(xí)。

Local MHRA size:


將local MHRA的卷積核大小設(shè)置為3、5、7、9,性能差異并不大,最終采用大小為5的卷積核,以取得最好的計(jì)算量與準(zhǔn)確率的權(quán)衡。

MHRA configuration:

由純local MHRA(LLLL)出發(fā),逐層替換使用global MHRA。

結(jié)果可以發(fā)現(xiàn),僅使用local MHRA時(shí),計(jì)算量很小,但性能下降明顯。逐層替換global MHRA后,性能逐漸提升。

但全部替換為global MHRA后,視頻分類準(zhǔn)確率急劇下降,計(jì)算量急劇上升,這主要是因?yàn)榫W(wǎng)絡(luò)缺失了提取細(xì)節(jié)特征的能力,冗余的attention在有限的video數(shù)據(jù)下導(dǎo)致了急劇的過擬合。

🤖?

Pre-training, training and testing for video backbone

遷移性能、卷積核展開方式、訓(xùn)練采樣方式

Transfer learning:

如上圖所示,表11比較了不同結(jié)構(gòu)的預(yù)訓(xùn)練性能以及小數(shù)據(jù)集上的遷移學(xué)習(xí)性能,可以發(fā)現(xiàn),聯(lián)合的時(shí)空學(xué)習(xí)方式,不僅在預(yù)訓(xùn)練模型上性能更好,在小數(shù)據(jù)集上的遷移學(xué)習(xí)性能提升明顯。

而純local MHRA以及時(shí)空分離的學(xué)習(xí)方式,遷移小數(shù)據(jù)訓(xùn)練未能帶來提升。

Infalting methods:

如上圖所示,表12中比較了是否對(duì)卷積核進(jìn)行展開,可以發(fā)現(xiàn),展開為3D卷積核,在場(chǎng)景相關(guān)的數(shù)據(jù)集Kinetics-400上性能接近,但在時(shí)序相關(guān)的數(shù)據(jù)集Sth-Sth V1上提升明顯,尤其是在強(qiáng)的預(yù)訓(xùn)練的加持下,這表明3D卷積核對(duì)時(shí)空特征的學(xué)習(xí)能力更強(qiáng)。

Sampling strides of dense sampling:

如上圖所示,表13中比較了我們?cè)谟?xùn)練Kinetics時(shí),使用不同間隔采樣的結(jié)果??梢园l(fā)現(xiàn)更稀疏的采樣,在單clip測(cè)試上效果往往更好,但在多clip測(cè)試時(shí),間隔4幀采樣更好。

Sampling methods of Kinetics pre-trained model:

由于加載Kinetics預(yù)訓(xùn)練模型訓(xùn)練Sth-Sth,而Sth-Sth采用uniform采樣,所以有必要知道預(yù)訓(xùn)練覆蓋更多幀是否能帶來提升。

如上圖所示,表14的結(jié)果表明,預(yù)訓(xùn)練的不同采樣方式差別并不大,16x4采樣在大部分條件下性能都較好。

🤖?


左:不同數(shù)據(jù)集預(yù)訓(xùn)練
右:不同測(cè)試策略
? ?

Pre-trained dataset scales:

如上圖所示,圖6比較了不同規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的結(jié)果,可以發(fā)現(xiàn)對(duì)于小模型,大數(shù)據(jù)集預(yù)訓(xùn)練的提升非常明顯,而對(duì)于大模型則相差無幾。

Testing strategies:

如上圖所示,圖7比較了不同的測(cè)試策略,可以發(fā)現(xiàn)對(duì)于使用dense采樣方式訓(xùn)練的場(chǎng)景相關(guān)數(shù)據(jù)集Kinetics而言,多clip測(cè)試方案較好,且1x4綜合性能最優(yōu)。對(duì)于使用uniform采樣方式訓(xùn)練的時(shí)序相關(guān)數(shù)據(jù)集Sth-Sth而言,多crop測(cè)試方案較好,且3x1綜合性能最好。


🤖?

Adaption designs for downstream tasks


下游改進(jìn)

object detection:

如上圖所示,表15比較了目標(biāo)檢測(cè)任務(wù)上,第三層采用不同類型block的結(jié)果。盡管在1x訓(xùn)練時(shí),hybrid block的性能比純global block性能略差,但經(jīng)過3x的充分訓(xùn)練后,hybrid block的性能已經(jīng)能和純global block持平。


semantic segmentation:

如上圖所示,表16比較了語(yǔ)義分割任務(wù)上,第三層采用不同類型block的結(jié)果。可以發(fā)現(xiàn)更大的窗口,以及global block的使用都能明顯提升性能,由于純global block計(jì)算量較大,我們采用性能相近的hybrid block。

pose estimation:

如上圖所示,表17分別比較了姿態(tài)估計(jì)任務(wù)上,第三層采用不同類型block的結(jié)果。由于圖像分辨率較小,zero padding消耗了更多的計(jì)算量。

🤖?

Visualizations


圖像分類與視頻分類

目標(biāo)檢測(cè)、語(yǔ)義分割、姿態(tài)估計(jì)

總結(jié)與思考

在過去一年多,我們?cè)谝曨l模型設(shè)計(jì)上嘗試了:

CNN(CTNet,ICLR2021)

ViT(UniFormer,ICLR2022)

MLP(MorphMLP,arxiv)

我們發(fā)現(xiàn):Transformer風(fēng)格的模塊+CNN的層次化架構(gòu)+convolution的局部建模+DeiT強(qiáng)大的訓(xùn)練策略,保證了模型的下限不會(huì)太低。

但相比convolution以及l(fā)inear layer而言,self-attention的性價(jià)比仍是最高的,同等計(jì)算量尤其是小模型下,self-attention帶來的性能提升明顯,并且對(duì)大數(shù)據(jù)集預(yù)訓(xùn)練的遷移效果更好。

?CTNet鏈接:

https://github.com/Andy1621/CT-Net

?UniFormer鏈接:

https://github.com/Sense-X/UniFormer


?MorphMLP鏈接:

https://arxiv.org/abs/2111.12527

不過傳統(tǒng)ViT對(duì)不同分辨率輸入并不友好,并且對(duì)大分辨率輸入的計(jì)算量難以承受,這在我們的工作UniFormer中都盡可能以簡(jiǎn)潔的方式解決,DWConv有限制地引入,也并不會(huì)導(dǎo)致過多的顯存開銷與速度延遲,最后在不同的任務(wù)上都能取得很好的性能權(quán)衡。

UniFormer提供了一個(gè)盡可能簡(jiǎn)單的框架,也希望后面的研究工作能在這個(gè)框架的基礎(chǔ)上,去考慮視頻中的運(yùn)動(dòng)信息、時(shí)空維度的冗余性、幀間的長(zhǎng)時(shí)關(guān)系建模等等更復(fù)雜的問題,實(shí)現(xiàn)更大的突破。

商湯研究院基模型組火熱招聘中

實(shí)習(xí)/全職均可

技術(shù)方向:?

1. 超大模型設(shè)計(jì)與優(yōu)化,大規(guī)模神經(jīng)網(wǎng)絡(luò)理解;?

2. 基礎(chǔ)研究與應(yīng)用,包括但不限于:目標(biāo)檢測(cè)/識(shí)別/分割,知識(shí)蒸餾,基礎(chǔ)模型結(jié)構(gòu)設(shè)計(jì)等;?

3. 無監(jiān)督/半監(jiān)督訓(xùn)練;?

4. 大規(guī)模數(shù)據(jù)訓(xùn)練優(yōu)化、通用表征學(xué)習(xí);?

5. 長(zhǎng)尾任務(wù),開集類別檢測(cè)等;?

6. 輕量化模型設(shè)計(jì)與優(yōu)化;?

7. AutoML相關(guān)技術(shù)研發(fā);?

團(tuán)隊(duì)優(yōu)勢(shì):?

1. 1000+獨(dú)有GPU(?V100+A100),5000+共享GPU;

2. 良好的研究氛圍與技術(shù)指導(dǎo),有足夠的warm?up周期;

3. 團(tuán)隊(duì)技術(shù)積累豐富,對(duì)解決具有挑戰(zhàn)性的問題充滿激情,獲得多項(xiàng)著名競(jìng)賽冠軍,如ImageNet2017、OpenImage2019、ActivityNet2020、NIST?FRVT、MOT2016、MMIT2019, MFR等 。?

崗位要求:?

1. 熟練掌握機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))和計(jì)算機(jī)視覺的基本方法;

2. 具備以上一個(gè)或多個(gè)技術(shù)方向的研究經(jīng)歷,對(duì)該領(lǐng)域技術(shù)理解扎實(shí);

3. 優(yōu)秀的分析問題和解決問題的能力,對(duì)解決具有挑戰(zhàn)性的問題充滿激情,自我驅(qū)動(dòng)力強(qiáng);

4. 有較強(qiáng)的研究能力優(yōu)先,如發(fā)表過第一作者CCF A類會(huì)議或期刊等論文。?

聯(lián)系方式(簡(jiǎn)歷投遞,請(qǐng)注明實(shí)習(xí)或全職):?

songguanglu@sensetime.com

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

·

·

與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的比SOTA模型更全能!商汤科技和上海人工智能实验室联手打造统一模型架构UniFormer...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。