當前位置：首頁 >

计算机视觉Computer Vision的尴尬---by林达华

發布時間：2025/3/21 48 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机视觉Computer Vision的尴尬---by林达华小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Computer Vision是AI的一個非常活躍的領域，每年大會小會不斷，發表的文章數以千計（單是CVPR每年就錄取300多，各種二流會議每年的文章更可謂不計其數），新模型新算法新應用層出不窮。可是，浮華背后，根基何在？
對于Vision，雖無大成，但涉獵數年，也有管窺之見。Vision所探索的是一個非常復雜的世界，對于這樣的世界如何建模，如何分析，卻一直沒有受普遍承認的理論體系。大部分的研究工作，循守著幾種模式：
o????從上游學科（比如立體幾何，機器學習，優化等等）獲取現成方法，略加變化，套用于某一具體應用。?
o????對現有的某個模型方法的一些不足之處，加以改進，比如在formulation中加入或者簡并參數，或者調整求解過程。?
o????選擇多個方法組成一個應用系統。?
這些工作實實在在解決了很多問題，功不可沒。然其不足在于，一事一法，難成積淀。故此，每年新發表之工作，雖汗牛充棟，蔚為大觀，就核心學理，與十年二十年前之狀態相比，沒有根本突破。
過去一年，在導師們的啟發下，涉獵一些其它學科，方知學問之博大，自己以往卻是一直坐井觀天。在這里其實非常感謝Alan的啟發，他一般沒有很具體的指導，但是他往往會說“你可以看看某某領域，這個問題可能在幾十年前已經被他們在另外一個context下面解決了。”剛開始的時候，我不是很服氣——我在Vision的literature的survey表明它在vision里面確實是新問題——不過，當我看到那些領域的文章的時候，不得不佩服Alan的廣博知識和對根本不同的領域中的相似問題的洞察力。
我不打算具體討論一個topic，但是，我建議做vision的朋友在有時間的時候去看看一些表面應用完全不同，但是核心學理卻是相通的領域。?
o????做Sampling, particle filtering的，不妨看看統計物理學(Statistical Physics），他們對于蒙特卡羅方法已經應用數十年，積累極深，很可能在vision或者learning提出的一些新方法，已經是被他們以另外一種形式或者名稱提出過了。
o????做Tracking, video, 和optimization的，可以看看控制論(Control theory)。控制科學對于動態系統（或者其它隨時間變化的過程）的研究極為透徹。Alan本來是做控制的，正式他幾次強烈的建議下，我才去看動態系統論和控制論，看過一些章節后有如醍醐灌頂。我曾經自己花了不少時間導出的一組矩陣微分方程的解，就是control theory里面已有深入探討的Peano-Baker series在一定條件下的形式。至于做傳導模型或者semi-supervised learning的，控制論中的許多觀點和方法也是很有幫助的。
o????做Graphical model，和各種統計模型的，信息論(information theory)是肯定必要的，這個不用我在這啰嗦了。有一門叫做信息幾何學(information geometry)，也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛好者，喜歡在paper里面列舉公式以彰顯“理論深度”——可是，我看過的大部分的文章中的公式推演，一般都是循規蹈矩的推導，其水平未必勝于求解一道經典教科書中的數學習題。誠然，這種推理演繹是整個研究中不可缺少的部分，寫在文章中也無可厚非，但是，如果僅此則把推演結果列為theoretical contribution，則不免為過了。真正意義的理論貢獻者，不在文中公式多寡，也不在數學深淺，而在于是否能對問題的內在原理展開深入剖析，有所發現，言人之未嘗言，給人以新的啟發。
作為經典物理基礎的牛頓三定律，從現在vision領域的眼光看來，不過是對實驗的總結，所得結論，除了第二定律有一簡單乘法公式（往高深處說，也不過是常系數線性二階常微分方程）之外，并無太多數學深入其中。雖如此，經典物理的巍峨大廈由此奠定。也許這個例子類比Vision的研究，未必恰當，但是，它起碼可以說明，理論貢獻之義在于去蕪存菁，也就是排開紛繁復雜的表象，發掘那個深刻但是簡單的規律。可是，在vision paper宣稱的理論貢獻中，有多少循此義而行，又有多少在鉛華凈盡之后留傳下來。
縱理論上根基不足，但Vision終究是應用學科，若能廣泛應用則其意義必能發揚。雖然經過幾十年努力，vision確實在社會生活中有了不少各種應用，不過比起其它學科則相形見拙。且不說諸如通信，軟件工程之類早已在全球形成龐大產業，與vision有更多聯系的video coding，signal processing, 和medical image，其應用之深廣也為vision所望塵莫及。vision沒能形成應有的工業應用，一則確實是它面臨的實際問題困難重重，實用水平不易達到，二則與我們的研究在相當程度上脫離實際有著很大關聯。
以我以往在香港學習時所做的face recognition來說，這是一個應用性很強的topic，歷史也不短，但在實際條件下的識別水平，做這個的朋友也心里明白。很多人在研究這個topic，發表的“新方法”也不少，在paper上識別正確率不達到90%是拿不出手的——可是在那幾個標準庫（即使是最新的FRGC）上做出的性能和實際的有多大的差距？很多工作assume頭像區域都對齊良好，光照條件規則，在此條件下研究出來的算法即使能達到100%的識別性能，在環境極為復雜的條件下能真的應用么？直到今天，大批文章仍在樂此不疲地討論各種subspace, kernel, svm, boosting的變化花樣，卻從不思考人臉識別的真正要素所在，難道不是舍本逐末之舉。?
與此同時，許多在實際工程實踐中的trick，為性能提高立下汗馬功勞，卻因為沒有“理論深度”，不登大雅之堂，即使見諸論文，也是在實驗部分草略帶過。然而，一個方法，無論其最初提出是否有理論依據，如果確實能解決問題，則必有其原因。若能靜下心來，暫時忘記那些僅憑思辨就形成的所謂美妙理論，下功夫探究一些確實能解決問題的方法背后所原之學理，其意義不是更大么。也許每個這樣的工作都很細小，真能積累下來，假以時日，在推動某個方面的應用上必有實實在在的進益。其中，也可能有機會總結出一些真正有價值的理論。
自誕生以來，Vision的發展已歷數十年，不過和許多領域相比，仍處于初始階段，根基尚顯孱弱混亂。唯因如此，對身處其中的研究者，更具挑戰意義，而每一個真正的貢獻也顯得特別有價值。治學之道，不在追逐潮流，而在深原其理。這是新學期新帳號第一次寫blog，謹以此，和每一位熱愛研究的朋友共勉。

總結

以上是生活随笔為你收集整理的计算机视觉Computer Vision的尴尬---by林达华的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Li Fei-fei写给她学生的一封信，
下一篇：机器学习的数学基础（1）--Dirich

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

计算机视觉Computer Vision的尴尬---by林达华

總結