日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从CVPR 2014看计算机视觉领域的最新热点

發布時間:2025/7/25 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从CVPR 2014看计算机视觉领域的最新热点 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
從CVPR 2014看計算機視覺領域的最新熱點

編者按:2014年度計算機視覺方向的頂級會議CVPR上月落下帷幕。在這次大會中,微軟亞洲研究院共有15篇論文入選。今年的CVPR上有哪些讓人眼前一亮的研究,又反映出哪些趨勢?來聽赴美參加會議的微軟亞洲研究院實習生胡哲的所見所聞。

作者:胡哲
微軟亞洲研究院實習生

計算機視覺(Computer Vision)是近十幾年來計算機科學中最熱門的方向之一,而國際計算機視覺與模式識別大會(Conference on Computer Vision and Pattern Recognition,簡稱CVPR)絕對是計算機視覺會議中的翹楚。

今年的CVPR在美國俄亥俄州首府哥倫布市(Columbus)召開,地點有點前不著村后不著店的感覺,大多數人都只好老老實實開會。但即便在如此偏遠的地方舉行會議,CVPR 的參會人數還是毫無縮減,這一點在中午領飯的時候可以深深體會到。當然,開會的核心絕對不在于地點和提供的飲食,雖然這也很重要。所有人千里迢迢從全世界過來匯聚在一起的主要目的還是感受流行的研究趨勢以及與大家交流各自的研究突破和創新的想法。非常榮幸我這次能有三篇論文被大會錄取,這既是對我個人在計算機視覺領域研究的巨大肯定,也讓我得以有機會能夠去往CVPR大會的現場去感受這個領域最前沿的研究成果和前瞻的趨勢。接下來,我就與大家分享一下這次的參會感受。

一、繁榮的深度學習

深度學習(Deep Learning)是當下最熱門的方向之一,今年的論文中標題帶deep字眼的論文就有16篇(其中oral presentation 4篇——在CVPR等大型會議中,由于論文數量眾多,大部分的論文都是以海報的形式作講演。而大會的委員會在所有其中挑選少量出色的工作(占所有投稿的 5%)面對所有研究者演講)。深度學習熱潮爆發以來,諸多研究者都在不懈地努力著,希望能夠把它應用于解決計算機視覺的各種任務上,從高層次(high- level)的識別(recognition),分類(classification)到低層次(low-level)的去噪(denoising)。讓人不禁聯想起當年的稀疏表達(sparse representation)的熱潮,而深度學習如今的風靡程度看上去是有過之而無不及。深度學習也有橫掃high-level問題的趨勢,high- level的很多方向都在被其不斷刷新著數據。以往的改進都是1,2個點的增長,如今使用深度學習輕松刷出5,6點,這給很多非深度學習方法研究者巨大的壓力。雖說深度學習是大熱方向,可計算機視覺界的研究者對深度學習的態度也是很鮮明的兩派——支持與觀望,也給其他研究趨勢帶來了一些影響(原因接下來說)。作為強大的特征(feature)學習工具,獲得大量的支持與推廣自然不必說,很多原本觀望的研究者們在目睹深度學習的優秀表現后也都開始投身于此。持觀望態度的人們一部分可能仍并不了解深度學習的機理,另外一大部分相信是對深度學習將給計算機視覺帶來的貢獻持保守態度。雖然筆者贊嘆于深度學習的強大能力,可對此也是持保守態度。誠然深度學習作為一個工具異常強大。在給定足夠多的訓練集的情況下,它可以幫助用戶學習到這個任務下的具有很強分辨能力的特征??墒沁@個訓練過程近乎黑箱,學習出的系統也很難給解決的問題帶來更深刻的理解。

二、為基礎模型研究正名

也許因為如此,我認為本次的評獎有些指引方向的感覺。本次大會的最佳論文頒給了研究camera motion和shape recovery關系的文章What Camera Motion Reveals About Shape with Unknown BRDF(single author!), Honorable mention給了利用structured light研究shape的論文3D Shape and Indirect Appearance by Structured Light Transport。這兩篇論文都可以算是研究3D幾何模型的。不僅評獎如此,計算機視覺領域的前輩也親自站出來力挺一下基礎模型的研究,其中Jean Ponce親自寫了一篇論文(oral)來繼續探討trinocular geometry的傳統假設不成立時如何保證三個相機 visual rays相交的情況。這些論文無一不是對計算機視覺基礎問題和基礎模型的深入研究,考慮前人沒有研究過的問題的系統分析。這些文章的獲獎也是鼓勵我們年輕研究人員靜下心來做基礎問題的研究,不輕易追趕當下熱潮。做追趕浪潮的弄潮兒容易,可是怎么樣保證研究工作不會輕易被遺忘在時間里,或者說怎么做對領域有貢獻的研究工作,絕對是我們研究者們需要思考的問題。另外,并不要認為已經寫入教科書的內容就已經板上釘釘沒有研究價值了。有一些理論也是建立在理想的假設滿足的前提下,所以它們仍然可以在質疑的眼光下去進行深造。

三、尚未被深度學習滲透的Low-level Vision

計算機視覺的問題可以根據他們的研究對象和目標分成三大類,low- level,mid-level, 和high-level。Low-level問題主要是針對圖像本身及其內在屬性的分析及處理,比如判斷圖片拍攝時所接受的光照,反射影響以及光線方向,進一步推斷拍攝物體的幾何結構;再如圖片修復,如何去除圖片拍攝中所遇到的抖動和噪聲等不良影響。High-level問題主要是針對圖像內容的理解和認知層面的,比如說識別與跟蹤圖像中的特定物體與其行為;根據已識別物體的深入推斷,比如預測物體所處的場景和即將要進行的行為。Mid-level是介于以上兩者之間的一個層面,個人理解是著重于特征表示,比如說如何描述high-level問題中的目標物體,使得這種描述有別于其他的物體??梢源笾抡J為,low-level的內容可以服務于mid-level的問題,而mid-level的內容可以服務于high-level的問題。由于這種分類不是很嚴格,所以也會出現交叉的情況。深度學習在計算機視覺界主要是作為一種特征學習的工具,可以姑且認為是mid-level的。所以之前提到的high- level的問題受深度學習的影響很大就是這個原因。相比較而言low-level問題受到深度學習的沖擊會小很多,當然也有深度學習用于去噪(denoise)和去模糊(deblur)等low-level問題的研究。對于受到深度學習良好表現困擾的年輕研究者們,也不妨來探尋low- level很多有意思的研究。這些年,MIT的Bill Freeman組就做了一些很有趣的low-level問題,比如放大視頻中出現的肉眼難以察覺的細小變化(Eulerian Video Magnification for Revealing Subtle Changes in the World),還有這次CVPR的文章Camouflaging an Object from Many Viewpoints就是講如何在自然環境中放置和涂染一個立方體,讓其產生變色龍般的隱藏效果。諸如此類的研究也讓研究這件事變得有趣和好玩。

筆者目前也正專注于low-level中去模糊(deblur)的研究。去模糊的意思是借助某種方法將拍照中出現的模糊圖像恢復成清晰圖像。這個問題是一個已經被研究了很多年的問題——去卷積(deconvolution),自上世紀5,60年代起,就有很多知名研究工作出現。這方面研究到近十年取得了很多突破,在處理相機抖動引起的模糊中出現了不少有影響力的的工作。而 Adobe公司2013年將這方面的算法作為一個重要特征放進了Photoshop中,更是成了鼓舞該領域的研究動力。美國FBI就有利用 Photoshop的去模糊功能修復圖片并幫助破案的例子,筆者去年在Adobe實習期間看到了FBI發來的感謝信。

這次筆者被CVPR 2014錄取的三篇文章都是關于去模糊的研究。一篇是針對模糊圖像的一個主要來源——暗光照情況下的圖像,設計的一個基于光斑(light streak)的去模糊算法(Deblurring Low-light Images with Light Streaks)。



這個算法自動檢測暗光情況下常見的光斑,并利用光斑作為模糊核(blur kernel)的約束。它對解決暗光下模糊圖片非常有效,而且光斑這一現象不僅出現在低光下,在普通的模糊圖像中也會出現,只需要場景中有與周邊環境有顏色差別的小型物體出現。讀者可以在我的個人主頁上下載代碼進行嘗試。還有一篇是說從一張模糊圖像中,我們不僅可以估計相機的抖動,還可以發掘出場景的深度(Joint Depth Estimation and Camera Shake Removal from Single)。這乍聽上去像是不可能完成的任務,可實際上圖像的模糊是同時包含了相機抖動和場景深度信息的。讀者也可以這樣認為,我們拍攝模糊圖像的過程也可以看作是拍攝一小段video的過程,這樣的話我們相當于擁有了一個多角度立體(stereo)的輸入!第三篇是針對文字模糊圖片設計的一個簡單有效的算法,可以用于文字識別前的預處理(Deblurring Text Image via L0-Regularized Intensity and Gradient Prior)。

四、Depth Sensor(深度傳感器)及深度圖像相關

近幾年來從Depth Sensor得到的深度圖像的相關研究一直是學術界以及工業界重點關注的問題。特別是工業界,很多Depth Sensor相關的創業公司如雨后春筍般在業界涌現,他們也獲得了廣泛的關注和不菲的投資,這次贊助CVPR的就有多家這樣的創業公司。不僅如此,很多大公司也都積極的投身于做自己的Depth Sensor,或者嵌入到自己的產品中。Depth Sensor為何有如此大的影響力,大家肯定早已有諸多見解。它作為一種新的輸入數據,給了傳統輸入數據(2D)一個新的像素級別的維度——深度。這不僅給研究者們開拓了以RGBD輸入數據為核心的舊問題新方向,而且由于深度圖像的幫助下也讓很多算法更加實用。這也讓CV研究離工業界的產品更緊密了。 Depth Sensor的成熟以及CV領域相關研究的發展,也提供給增強現實(Augmented Reality)這個未來科技感十足的方向一個重要的接口。所有的這些都昭示著Depth Sensor是一個非常有價值而且在一段時間內還將是非常熱門的方向。

微軟亞洲研究院在這個方向上也有一篇利用depth sensor做手部跟蹤的oral論文(Realtime and Robust Hand Tracking from Depth)。通過重新定義手的模型和能量方程,這個工作將手部跟蹤做到了實時并且算法也很魯棒。在PC上不用GPU也達到了25FPS(每秒顯示幀數),而平均誤差在測試數據上降低到10mm,相比其他方法提升50%左右。對手勢的準確識別是現在很流行的一個問題。因為技術的進步已經讓傳統的輸入方式(比如鼠標)處于更新換代的邊緣了,如今通過depth sensor與手勢來實現人機的實時交互將可能帶來下一個輸入方式的革命。所以這個工作是很有價值與深遠影響的,也因此而獲得了oral演講的資格。

另外,微軟亞洲研究院在今年的CVPR發表的另外一篇oral論文也是應用很廣的一個問題——人臉對準(Face Alignment at 3000 FPS via Regressing Local Binary Features)。

通過采用局部學習的準則降低隨機森林(random forest)的任務難度,以得到更好的局部特征(local feature)。同時,整體上的結構學習幫助算法更加魯棒。這個項目實現了快速的人臉對準以及人臉跟蹤。在相同精度下,它比以往的方法快了數十倍,在 PC上單核3000FPS,手機上單核300FPS。這個結果很令人振奮,因為手機及移動設備已經很大程度的改變人們的生活方式,可是相比PC,手機的處理能力有限,那么就需要更加快速穩定的算法。這個工作就為在手機及移動設備對人臉的實時處理提供了堅實的基礎。

總結

以上是生活随笔為你收集整理的从CVPR 2014看计算机视觉领域的最新热点的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。