专访 Swin Transformer 作者胡瀚:面向计算机视觉中的「开放问题」 原创
文 | 劉冰一、Echo
編輯 | 極市平臺
本文原創(chuàng)首發(fā)于極市平臺,轉(zhuǎn)載請獲得授權(quán)并標(biāo)明出處。
胡瀚,湖北潛江人,本博均畢業(yè)于清華大學(xué)自動(dòng)化系,曾就職于百度研究院深度學(xué)習(xí)實(shí)驗(yàn)室,目前任職于微軟亞洲研究院視覺計(jì)算組。近期他和團(tuán)隊(duì)的“ Swin Transformer:Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 馬爾獎(jiǎng)(最佳論文獎(jiǎng))。
1 從看閑書談起
科研人員閑暇做什么?也許千人千面。胡瀚在微軟亞洲研究院工作,周末他偏好窩在家里看書作消遣。此外,他在工作日早晚也會擠出一段時(shí)間用來閱讀。最近在看先秦兩漢時(shí)代的書,翻著翻著他腦海里會閃現(xiàn)一些和工作中的互通之處。比如,那時(shí)諸子百家百花齊放,制度創(chuàng)新層出不窮,但這些思想和制度的創(chuàng)新大都是在前人的基礎(chǔ)上進(jìn)行的改進(jìn),以此適應(yīng)最新的社會經(jīng)濟(jì)變化。他感慨做研究最好要做到心中有基準(zhǔn)線,了解歷史的演進(jìn)過程以及目前支撐技術(shù)和生態(tài)的變化,這樣才能更好地指引研究前進(jìn)的方向。
《送東陽馬生序》中有一句話:「幼時(shí)即嗜學(xué),家貧,無從致書以觀」。胡瀚的情況跟這有些相似,他從小便喜歡讀書,興趣濃時(shí)廢寢忘食,索性村里小學(xué)的圖書館加一張床,每天泡在書海里。雖然后來學(xué)了理科,但他的閱文比較廣泛,古今中外兼容并包,他最愛在歷史書中索趣,他認(rèn)為梳理歷史脈絡(luò)有助于樹立“大局觀”和“聯(lián)系思維”。
“全局意識”對他學(xué)業(yè)和科研助益頗深。在思考問題的時(shí)候,他常常能夠從眼前孤立的局部跳出來,探討在更大的圖景中對正確方向的把握。 比如博士期間做視覺分割問題,他打破常規(guī)的純工程角度,試圖從人的視覺機(jī)制中尋找靈感,以指導(dǎo)和啟發(fā)新算法的設(shè)計(jì),這樣最終形成的博士論文不再是純工程模塊的羅列,而是形成了更體系性和前瞻性的思考。
胡瀚對歷史有許多自己的思考。說起喜歡的歷史人物,他欽佩對人類思想變革有貢獻(xiàn)的人,比如宣揚(yáng)知行合一的王陽明;從底層做起、人格完整的的富蘭克林,他的價(jià)值觀智慧且實(shí)在;以及杰斐遜,時(shí)值美國建國思想大變革之際,他的政治理念和實(shí)踐對人類社會的貢獻(xiàn)功不可沒。開卷有益,博覽群書,無功利目的地海量閱讀,使他形成了寬厚的知識塔基和靈敏的心智結(jié)構(gòu),從而在科研輸出時(shí)盡量“知識自由”“引證自由”。
《卡薩布蘭卡》里寫到,「你如今的氣質(zhì)里,藏著你走過的路,讀過的書和熱愛的人。」踐行知行合一,胡瀚把書里學(xué)到的應(yīng)用在日常中,他向思想先鋒們看齊,勇?lián)钚迈r、最坦率的青年之責(zé)。
2 勇于嘗試,向優(yōu)秀的人學(xué)習(xí)
胡瀚覺得自己屬于理解和適應(yīng)能力比較好的一類人,運(yùn)氣也比較好,憑借悟性和幸運(yùn)考入清華。校園里厲害的人太多了,他也不擰巴,成長過程一切順其自然。
身邊的人優(yōu)秀,會刺激自己變得更優(yōu)秀,但不會對自己預(yù)期過高,我是個(gè)普通人,跟天才還是有差距的,并不會因?yàn)榭吹奖茸约簠柡Φ娜硕膽B(tài)失衡。
就像人工智能中的模仿學(xué)習(xí),他認(rèn)為這是最高效的一種學(xué)習(xí)方式,他不斷向身邊的人學(xué)習(xí)好的經(jīng)驗(yàn),也學(xué)習(xí)失敗教訓(xùn)。這也是他自認(rèn)為比較幸運(yùn)的地方,求學(xué)生涯能在最好的學(xué)校里向最優(yōu)秀的同學(xué)們學(xué)習(xí),工作以后則能在做人工智能研究和工程實(shí)踐最好的機(jī)構(gòu)向優(yōu)秀的同事和前輩學(xué)習(xí), 自己進(jìn)步很快。
另一方面,就像人工智能中的強(qiáng)化學(xué)習(xí),他在試錯(cuò)中成長,也逐漸發(fā)現(xiàn)自己擅長和喜歡的事業(yè)。清華園里本博十年光陰,就成了他試錯(cuò)、充電的最佳時(shí)機(jī)。
大學(xué)期間,會有意識地積極參加班級活動(dòng),也擔(dān)任過學(xué)習(xí)委員、班長和團(tuán)支書的職務(wù),這雖然會占用自己的學(xué)習(xí)時(shí)間,但也通過為班里同學(xué)服務(wù)補(bǔ)足了自己一些能力方面的欠缺。事實(shí)上,剛上大學(xué)時(shí),由于年齡偏小,又從比較封閉的農(nóng)村出來,內(nèi)心會有不自信并且有社交障礙,積極擔(dān)任這些職務(wù),也使自己克服了這些短板。
大三,胡瀚跟著周杰老師實(shí)驗(yàn)室的一位師兄做 SRT (Student Research Training)項(xiàng)目。正是因?yàn)檫@一次項(xiàng)目經(jīng)歷,他順利進(jìn)入了周杰老師實(shí)驗(yàn)室并隨其讀博。讀博第一年,他便中了實(shí)驗(yàn)室五年以來第一篇 CVPR,這篇文章給了當(dāng)時(shí)的他很大的鼓勵(lì),也成為了他科研的一個(gè)起點(diǎn)。
我的人生路徑不是一開始就規(guī)劃好的,而是一步一步的往前走,慢慢地發(fā)現(xiàn)自己的熱愛和擅長之路,導(dǎo)師和師兄也在一直幫助我,我覺得是一件蠻幸運(yùn)的事。
胡瀚喜歡做一些新的嘗試。因?yàn)樽约簭霓r(nóng)村里面考出來,想知道基層公務(wù)員是什么狀態(tài),也想了解國家和基層公務(wù)員在農(nóng)村建設(shè)方面更宏觀的想法和實(shí)踐。于是趁著博士階段的社會實(shí)踐,他去了往四川綿陽一個(gè)小縣城的發(fā)改局。在此之前,他做了充分地調(diào)研和準(zhǔn)備,讀了三十多本關(guān)于中國新農(nóng)村建設(shè)、土地財(cái)政稅制相關(guān)的文科碩博士論文,并給當(dāng)?shù)卣ぷ魅藛T分享了許多自己的理解。當(dāng)?shù)毓ぷ魅藛T實(shí)踐經(jīng)驗(yàn)豐富,但很少接觸相關(guān)理論和更廣泛范圍的實(shí)踐經(jīng)驗(yàn),不少工作人員反饋聽完分享后豁然開朗,而自己也很有成就感。
他在博士期間還前往了賓夕法尼亞大學(xué)交流。這次經(jīng)歷對他來說是一段新奇又很有幫助的體驗(yàn),讓他感受到了一些國內(nèi)外科研方式的不同。
我在國外的導(dǎo)師對每位學(xué)生項(xiàng)目的技術(shù)細(xì)節(jié)指導(dǎo)地很細(xì)致,更 hands-on(親力親為)一些,而在國內(nèi)的導(dǎo)師則會給我很多大方向上的指導(dǎo)和建議,并給與我充分的研究自由度。
這兩種不同的風(fēng)格也影響了他今后在研究工作中和學(xué)生的合作和培養(yǎng)模式,他選擇去嘗試兼顧自由度和親力親為。當(dāng)時(shí)他所在的中心主攻機(jī)器人方向,20 多位老師里只有 3 位做純粹的計(jì)算機(jī)視覺研究,但中心的老師都可以給自己建議和啟發(fā)。他們在方法論上的引導(dǎo),一定程度上培養(yǎng)了他的一種問題意識:重要的是提出問題(挖坑),以及在填坑過程中尋找新的重要問題。
博士畢業(yè)以后他去了百度研究院的深度學(xué)習(xí)實(shí)驗(yàn)室,該研究院由余凱(現(xiàn)地平線的創(chuàng)始人)掛帥,成為國內(nèi)最早開啟深度學(xué)習(xí)研究的先鋒軍之一。他第一個(gè)項(xiàng)目是在關(guān)于一種新的廣告展示樣式。以前的搜索引擎廣告僅是一個(gè)文本鏈接,不夠生動(dòng)。為了吸引用戶點(diǎn)擊,團(tuán)隊(duì)想到給每個(gè)鏈接配一個(gè)優(yōu)質(zhì)關(guān)聯(lián)圖,這是一個(gè)體量很大的工作,他在其中負(fù)責(zé)將圖片裁剪成展示所需比例這個(gè)技術(shù)模塊。從計(jì)算機(jī)視覺研究來說,這不是一個(gè)核心任務(wù),但從商業(yè)來看, 這一技術(shù)卻最終帶來了令他感到驚訝的巨大價(jià)值:促使點(diǎn)擊率上升5個(gè)百分點(diǎn),這也意味著百度年利潤能提升35億人民幣的規(guī)模。 這次經(jīng)歷徹底刷新了他的認(rèn)知,也豐富了他看問題的維度。
在百度刷新認(rèn)知的事情經(jīng)常上演,這里相比此前在學(xué)校里的研究工作更靠近商業(yè)和技術(shù)前沿,他也得以迅速提升了自己的工程能力、business sense(商業(yè)敏感)、問題研判能力、以及拓寬了思考維度。憑借出色能力他很快被安排去承擔(dān) tech leader 的角色,但不久以后的他重新為自己的人生做了一次選擇:去微軟亞洲研究院視覺計(jì)算組,做回一名一線的研究員。
現(xiàn)在回頭來看這個(gè)選擇無疑是正確的。當(dāng)時(shí)他在百度的工作更多地偏向業(yè)務(wù)落地,主要考量技術(shù)能否為企業(yè)的商業(yè)目標(biāo)服務(wù);而微軟亞研偏向做基礎(chǔ)研究,而且他所去的這個(gè)團(tuán)隊(duì)剛做出來ResNet這一革命性的工作。對他而言這是一次機(jī)會,因?yàn)榭梢栽谧铐敿壍难芯繄F(tuán)隊(duì)里學(xué)習(xí)和成長,同時(shí)這也是一個(gè)挑戰(zhàn),主要在于從業(yè)務(wù)應(yīng)用重回基礎(chǔ)研究的不確定感,不清楚自己能否做出一些真正具有長遠(yuǎn)影響的基礎(chǔ)研究工作。 幸運(yùn)的是,微軟亞洲研究院視覺計(jì)算組無愧被稱為計(jì)算機(jī)視覺界的“黃埔軍校”,不僅研究做的厲害,更重要的是這里很善于培養(yǎng)年輕的研究員,在這個(gè)組里的鍛煉讓他做研究的能力上了一個(gè)臺階。
在胡瀚看來,**MSRA 有兩點(diǎn)很特別,一個(gè)是自由的學(xué)術(shù)氛圍,二是很好的傳承。**MSRA 科研之樹長青,智慧代際傳承。正是因?yàn)橛兄鴮O劍、何愷明、華剛、梅濤、王井東、代季峰、危夷晨、Steve Lin 等在科研品味和科研素質(zhì)方面的培養(yǎng)和訓(xùn)練,例如如何產(chǎn)生一個(gè)好想法并將它付諸實(shí)踐、對實(shí)驗(yàn)的嚴(yán)謹(jǐn)苛刻、寫作邏輯與細(xì)節(jié)的把控要求等等,讓每一位加入MSRA 的視覺研究者都受益匪淺。而這些資深的研究員則是受更早的如沈向洋、張宏江、郭百寧、湯曉鷗、馬毅等前輩研究員的指導(dǎo)而取得的巨大成長。現(xiàn)如今,胡瀚也感受到了一種傳承的使命感,希望將這兩個(gè)特別的地方傳承下去,以期為公司和整個(gè)社會培養(yǎng)更多的人才。
3 一個(gè)好的科研想法的臺前與幕后
胡瀚所在的組里有幾位年輕的研究員,還有 10 位左右博士生,這些博士生主要是微軟和高校聯(lián)合培養(yǎng)項(xiàng)目的博士生。
很多工作看起來是靈感迸發(fā)、幸運(yùn)之至,但背后可能是整個(gè)團(tuán)隊(duì)多次郁塞地嘗試。
Swin Transformer 的提出就有一段這樣的經(jīng)歷。在兩三年前,胡瀚和團(tuán)隊(duì)做過一個(gè)關(guān)于局部關(guān)系網(wǎng)絡(luò)(Local Relation Networks)的研究,這一工作被 ICCV 2019 所接收。在做這個(gè)工作時(shí),他們就嘗試了第一個(gè)完全基于自注意力而無需卷積的骨干網(wǎng)絡(luò),但基于滑動(dòng)窗口的自注意單元對GPU顯存訪問不太友好,使得計(jì)算速度較慢不太實(shí)用。正是因?yàn)橛羞@樣的經(jīng)驗(yàn),在設(shè)計(jì)Swin Transformer時(shí),他們直接跳過了滑動(dòng)窗口,選擇了不重疊窗口。而移位的思想則是受到了胡瀚四年前的另一個(gè)未發(fā)表的工作的啟發(fā)。
不重疊窗口以及移位的設(shè)計(jì)也是 Swin Transformer 能從眾多視覺 Transformer 中脫穎而出的亮點(diǎn)所在。 利用移動(dòng)窗口對分層 Transformer 的表征進(jìn)行計(jì)算,并通過將自注意力計(jì)算限制在不重疊的局部串口,同時(shí)在不同的層中允許跨窗口連接。這種分層結(jié)構(gòu)可以靈活地在不同尺度上建模,并使得計(jì)算復(fù)雜度和圖像大小線性相關(guān)。下圖為在 Swin Transformer 架構(gòu)中利用移位窗口計(jì)算自注意力的示意圖:
與開放問題對話一直是胡瀚在做研究上的一大追求。“以前的Transformer只能做圖像分類,但它能不能解決更多的視覺問題?”“當(dāng)Transformer能用于更多視覺問題的時(shí)候,到底未來應(yīng)該選CNN還是Transformer?”為了回答這些問題,團(tuán)隊(duì)花了很大精力把Swin Transformer的性能調(diào)優(yōu),使得它在一些重要的評測集上面能夠超出CNN三個(gè)點(diǎn)。這時(shí)他們發(fā)現(xiàn),在嘗試尋找第一個(gè)開放問題的答案時(shí),很自然地、順利地就找到了接下來需要解答的重要問題。
能回答一些重要問題的工作總是很難得,胡瀚覺得碰到默契的團(tuán)隊(duì)是非常幸運(yùn)的。在研究中,團(tuán)隊(duì)每一個(gè)人都能發(fā)揮自己的特長。論文投稿前最后一個(gè)月,他們每個(gè)人都在想怎樣把方法和結(jié)果做到極致,調(diào)用自己 120% 的精力。
在大家共同的努力下,Swin Transformer 實(shí)現(xiàn)了頗具競爭力的性能表現(xiàn),在目標(biāo)檢測、實(shí)例分割和語義分割等幾個(gè)重要的視覺任務(wù)中顯著超越了此前最好的基于卷積神經(jīng)網(wǎng)絡(luò)的方法。10月13日,兩年一度的計(jì)算機(jī)視覺頂會 ICCV 2021 優(yōu)秀論文評選結(jié)果揭曉,Swin Transformer 收獲了一個(gè)在計(jì)算機(jī)視覺領(lǐng)域非常有分量的認(rèn)可——摘得馬爾獎(jiǎng)(最佳論文獎(jiǎng))。
在獲得馬爾獎(jiǎng)后,胡瀚和團(tuán)隊(duì)瞄準(zhǔn)了下一個(gè)重要的問題:視覺領(lǐng)域能如NLP領(lǐng)域一樣開啟大模型的時(shí)代嗎?如何才能有效地穩(wěn)定訓(xùn)練視覺大模型? 不久前他們嘗試回答這些問題,并給出了肯定的答案,發(fā)現(xiàn)視覺大模型也能給各種視覺問題帶來廣泛且顯著的提升。
SwinT 證明 Transformer 在幾種典型的視覺任務(wù)均能顯著超越 CNN,胡瀚對 Transformer 的未來發(fā)展是非常的看好的,他認(rèn)為不論是生態(tài)層面還是技術(shù)層面,Transformer都將很快全面取代CNN。
Transformer具有更強(qiáng)的建模能力、和卷積形成互補(bǔ)、對大模型和大數(shù)據(jù)有更好的擴(kuò)展性、且能夠更好地連接視覺和語言。
他相信視覺 Transformer 將開啟計(jì)算機(jī)視覺建模的新時(shí)代。事實(shí)上,Transformer 自提出以來,在計(jì)算機(jī)視覺領(lǐng)域也一直存在不同的聲音,有很多人認(rèn)為 CNN 在改進(jìn)訓(xùn)練方式后性能將可以和 Transformer 比肩,以及 CNN 在移動(dòng)端性能上仍是更優(yōu)的選擇等等。對于學(xué)術(shù)觀點(diǎn)差異,胡瀚一直以一種擁抱和歡迎的態(tài)度面對。「這是個(gè)好事情,學(xué)術(shù)界沒有多樣性就很難有創(chuàng)新。」他很樂意聽到不同的思考,幫助發(fā)現(xiàn)自己觀點(diǎn)的好壞,在辯論和碰撞中才能得到更正確的認(rèn)知。
在胡瀚看來,做研究的目標(biāo)不僅僅是去發(fā)明新的更好的工程實(shí)踐,更重要的目標(biāo)是探索一個(gè)領(lǐng)域更正確的認(rèn)知,以及指引更正確的前進(jìn)方向。他在自己的科研中踐行著這樣的目標(biāo),他認(rèn)為這可能是他和團(tuán)隊(duì)能幸運(yùn)取得這些研究成果最重要的原因之一。當(dāng)然他也坦承這并不容易,需要投入大量時(shí)間和經(jīng)歷,對此,胡瀚提到,做研究很多時(shí)候是一種自我驅(qū)動(dòng),是追求自己內(nèi)心深處的一種使命感,因此常常會將很多本應(yīng)給家人的時(shí)間也投入到了研究中,想到這一點(diǎn),他特別感謝家人的理解和支持。
“志之所趨,無遠(yuǎn)弗屆,窮山距海,不能限也。”赤子之心至誠,希望趕路人乘風(fēng)破浪至遠(yuǎn)!
- END -
推薦大家關(guān)注極市平臺公眾號,每天都會更新最新的計(jì)算機(jī)視覺論文解讀、綜述盤點(diǎn)、調(diào)參攻略、面試經(jīng)驗(yàn)等干貨~
總結(jié)
以上是生活随笔為你收集整理的专访 Swin Transformer 作者胡瀚:面向计算机视觉中的「开放问题」 原创的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021年中国计算机视觉人才调研开启啦,
- 下一篇: CUDA 编程上手指南:CUDA C 编