计算机视觉Computer Vision的尴尬---by林达华
生活随笔
收集整理的這篇文章主要介紹了
计算机视觉Computer Vision的尴尬---by林达华
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Computer Vision是AI的一個(gè)非常活躍的領(lǐng)域,每年大會(huì)小會(huì)不斷,發(fā)表的文章數(shù)以千計(jì)(單是CVPR每年就錄取300多,各種二流會(huì)議每年的文章更可謂不計(jì)其數(shù)),新模型新算法新應(yīng)用層出不窮。可是,浮華背后,根基何在?
對(duì)于Vision,雖無(wú)大成,但涉獵數(shù)年,也有管窺之見(jiàn)。Vision所探索的是一個(gè)非常復(fù)雜的世界,對(duì)于這樣的世界如何建模,如何分析,卻一直沒(méi)有受普遍承認(rèn)的理論體系。大部分的研究工作,循守著幾種模式:
o????從上游學(xué)科(比如立體幾何,機(jī)器學(xué)習(xí),優(yōu)化等等)獲取現(xiàn)成方法,略加變化,套用于某一具體應(yīng)用。?
o????對(duì)現(xiàn)有的某個(gè)模型方法的一些不足之處,加以改進(jìn),比如在formulation中加入或者簡(jiǎn)并參數(shù),或者調(diào)整求解過(guò)程。?
o????選擇多個(gè)方法組成一個(gè)應(yīng)用系統(tǒng)。?
這些工作實(shí)實(shí)在在解決了很多問(wèn)題,功不可沒(méi)。然其不足在于,一事一法,難成積淀。故此,每年新發(fā)表之工作,雖汗牛充棟,蔚為大觀,就核心學(xué)理,與十年二十年前之狀態(tài)相比,沒(méi)有根本突破。
過(guò)去一年,在導(dǎo)師們的啟發(fā)下,涉獵一些其它學(xué)科,方知學(xué)問(wèn)之博大,自己以往卻是一直坐井觀天。在這里其實(shí)非常感謝Alan的啟發(fā),他一般沒(méi)有很具體的指導(dǎo),但是他往往會(huì)說(shuō)“你可以看看某某領(lǐng)域,這個(gè)問(wèn)題可能在幾十年前已經(jīng)被他們?cè)诹硗庖粋€(gè)context下面解決了。”剛開(kāi)始的時(shí)候,我不是很服氣——我在Vision的literature的survey表明它在vision里面確實(shí)是新問(wèn)題——不過(guò),當(dāng)我看到那些領(lǐng)域的文章的時(shí)候,不得不佩服Alan的廣博知識(shí)和對(duì)根本不同的領(lǐng)域中的相似問(wèn)題的洞察力。
我不打算具體討論一個(gè)topic,但是,我建議做vision的朋友在有時(shí)間的時(shí)候去看看一些表面應(yīng)用完全不同,但是核心學(xué)理卻是相通的領(lǐng)域。?
o????做Sampling, particle filtering的,不妨看看統(tǒng)計(jì)物理學(xué)(Statistical Physics),他們對(duì)于蒙特卡羅方法已經(jīng)應(yīng)用數(shù)十年,積累極深,很可能在vision或者learning提出的一些新方法,已經(jīng)是被他們以另外一種形式或者名稱提出過(guò)了。
o????做Tracking, video, 和optimization的,可以看看控制論(Control theory)。控制科學(xué)對(duì)于動(dòng)態(tài)系統(tǒng)(或者其它隨時(shí)間變化的過(guò)程)的研究極為透徹。Alan本來(lái)是做控制的,正式他幾次強(qiáng)烈的建議下,我才去看動(dòng)態(tài)系統(tǒng)論和控制論,看過(guò)一些章節(jié)后有如醍醐灌頂。我曾經(jīng)自己花了不少時(shí)間導(dǎo)出的一組矩陣微分方程的解,就是control theory里面已有深入探討的Peano-Baker series在一定條件下的形式。至于做傳導(dǎo)模型或者semi-supervised learning的,控制論中的許多觀點(diǎn)和方法也是很有幫助的。
o????做Graphical model,和各種統(tǒng)計(jì)模型的,信息論(information theory)是肯定必要的,這個(gè)不用我在這啰嗦了。有一門(mén)叫做信息幾何學(xué)(information geometry),也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛(ài)好者,喜歡在paper里面列舉公式以彰顯“理論深度”——可是,我看過(guò)的大部分的文章中的公式推演,一般都是循規(guī)蹈矩的推導(dǎo),其水平未必勝于求解一道經(jīng)典教科書(shū)中的數(shù)學(xué)習(xí)題。誠(chéng)然,這種推理演繹是整個(gè)研究中不可缺少的部分,寫(xiě)在文章中也無(wú)可厚非,但是,如果僅此則把推演結(jié)果列為theoretical contribution,則不免為過(guò)了。真正意義的理論貢獻(xiàn)者,不在文中公式多寡,也不在數(shù)學(xué)深淺,而在于是否能對(duì)問(wèn)題的內(nèi)在原理展開(kāi)深入剖析,有所發(fā)現(xiàn),言人之未嘗言,給人以新的啟發(fā)。
作為經(jīng)典物理基礎(chǔ)的牛頓三定律,從現(xiàn)在vision領(lǐng)域的眼光看來(lái),不過(guò)是對(duì)實(shí)驗(yàn)的總結(jié),所得結(jié)論,除了第二定律有一簡(jiǎn)單乘法公式(往高深處說(shuō),也不過(guò)是常系數(shù)線性二階常微分方程)之外,并無(wú)太多數(shù)學(xué)深入其中。雖如此,經(jīng)典物理的巍峨大廈由此奠定。也許這個(gè)例子類(lèi)比Vision的研究,未必恰當(dāng),但是,它起碼可以說(shuō)明,理論貢獻(xiàn)之義在于去蕪存菁,也就是排開(kāi)紛繁復(fù)雜的表象,發(fā)掘那個(gè)深刻但是簡(jiǎn)單的規(guī)律。可是,在vision paper宣稱的理論貢獻(xiàn)中,有多少循此義而行,又有多少在鉛華凈盡之后留傳下來(lái)。
縱理論上根基不足,但Vision終究是應(yīng)用學(xué)科,若能廣泛應(yīng)用則其意義必能發(fā)揚(yáng)。雖然經(jīng)過(guò)幾十年努力,vision確實(shí)在社會(huì)生活中有了不少各種應(yīng)用,不過(guò)比起其它學(xué)科則相形見(jiàn)拙。且不說(shuō)諸如通信,軟件工程之類(lèi)早已在全球形成龐大產(chǎn)業(yè),與vision有更多聯(lián)系的video coding,signal processing, 和medical image,其應(yīng)用之深廣也為vision所望塵莫及。vision沒(méi)能形成應(yīng)有的工業(yè)應(yīng)用,一則確實(shí)是它面臨的實(shí)際問(wèn)題困難重重,實(shí)用水平不易達(dá)到,二則與我們的研究在相當(dāng)程度上脫離實(shí)際有著很大關(guān)聯(lián)。
以我以往在香港學(xué)習(xí)時(shí)所做的face recognition來(lái)說(shuō),這是一個(gè)應(yīng)用性很強(qiáng)的topic,歷史也不短,但在實(shí)際條件下的識(shí)別水平,做這個(gè)的朋友也心里明白。很多人在研究這個(gè)topic,發(fā)表的“新方法”也不少,在paper上識(shí)別正確率不達(dá)到90%是拿不出手的——可是在那幾個(gè)標(biāo)準(zhǔn)庫(kù)(即使是最新的FRGC)上做出的性能和實(shí)際的有多大的差距?很多工作assume頭像區(qū)域都對(duì)齊良好,光照條件規(guī)則,在此條件下研究出來(lái)的算法即使能達(dá)到100%的識(shí)別性能,在環(huán)境極為復(fù)雜的條件下能真的應(yīng)用么?直到今天,大批文章仍在樂(lè)此不疲地討論各種subspace, kernel, svm, boosting的變化花樣,卻從不思考人臉識(shí)別的真正要素所在,難道不是舍本逐末之舉。?
與此同時(shí),許多在實(shí)際工程實(shí)踐中的trick,為性能提高立下汗馬功勞,卻因?yàn)闆](méi)有“理論深度”,不登大雅之堂,即使見(jiàn)諸論文,也是在實(shí)驗(yàn)部分草略帶過(guò)。然而,一個(gè)方法,無(wú)論其最初提出是否有理論依據(jù),如果確實(shí)能解決問(wèn)題,則必有其原因。若能靜下心來(lái),暫時(shí)忘記那些僅憑思辨就形成的所謂美妙理論,下功夫探究一些確實(shí)能解決問(wèn)題的方法背后所原之學(xué)理,其意義不是更大么。也許每個(gè)這樣的工作都很細(xì)小,真能積累下來(lái),假以時(shí)日,在推動(dòng)某個(gè)方面的應(yīng)用上必有實(shí)實(shí)在在的進(jìn)益。其中,也可能有機(jī)會(huì)總結(jié)出一些真正有價(jià)值的理論。
自誕生以來(lái),Vision的發(fā)展已歷數(shù)十年,不過(guò)和許多領(lǐng)域相比,仍處于初始階段,根基尚顯孱弱混亂。唯因如此,對(duì)身處其中的研究者,更具挑戰(zhàn)意義,而每一個(gè)真正的貢獻(xiàn)也顯得特別有價(jià)值。治學(xué)之道,不在追逐潮流,而在深原其理。這是新學(xué)期新帳號(hào)第一次寫(xiě)blog,謹(jǐn)以此,和每一位熱愛(ài)研究的朋友共勉。
對(duì)于Vision,雖無(wú)大成,但涉獵數(shù)年,也有管窺之見(jiàn)。Vision所探索的是一個(gè)非常復(fù)雜的世界,對(duì)于這樣的世界如何建模,如何分析,卻一直沒(méi)有受普遍承認(rèn)的理論體系。大部分的研究工作,循守著幾種模式:
o????從上游學(xué)科(比如立體幾何,機(jī)器學(xué)習(xí),優(yōu)化等等)獲取現(xiàn)成方法,略加變化,套用于某一具體應(yīng)用。?
o????對(duì)現(xiàn)有的某個(gè)模型方法的一些不足之處,加以改進(jìn),比如在formulation中加入或者簡(jiǎn)并參數(shù),或者調(diào)整求解過(guò)程。?
o????選擇多個(gè)方法組成一個(gè)應(yīng)用系統(tǒng)。?
這些工作實(shí)實(shí)在在解決了很多問(wèn)題,功不可沒(méi)。然其不足在于,一事一法,難成積淀。故此,每年新發(fā)表之工作,雖汗牛充棟,蔚為大觀,就核心學(xué)理,與十年二十年前之狀態(tài)相比,沒(méi)有根本突破。
過(guò)去一年,在導(dǎo)師們的啟發(fā)下,涉獵一些其它學(xué)科,方知學(xué)問(wèn)之博大,自己以往卻是一直坐井觀天。在這里其實(shí)非常感謝Alan的啟發(fā),他一般沒(méi)有很具體的指導(dǎo),但是他往往會(huì)說(shuō)“你可以看看某某領(lǐng)域,這個(gè)問(wèn)題可能在幾十年前已經(jīng)被他們?cè)诹硗庖粋€(gè)context下面解決了。”剛開(kāi)始的時(shí)候,我不是很服氣——我在Vision的literature的survey表明它在vision里面確實(shí)是新問(wèn)題——不過(guò),當(dāng)我看到那些領(lǐng)域的文章的時(shí)候,不得不佩服Alan的廣博知識(shí)和對(duì)根本不同的領(lǐng)域中的相似問(wèn)題的洞察力。
我不打算具體討論一個(gè)topic,但是,我建議做vision的朋友在有時(shí)間的時(shí)候去看看一些表面應(yīng)用完全不同,但是核心學(xué)理卻是相通的領(lǐng)域。?
o????做Sampling, particle filtering的,不妨看看統(tǒng)計(jì)物理學(xué)(Statistical Physics),他們對(duì)于蒙特卡羅方法已經(jīng)應(yīng)用數(shù)十年,積累極深,很可能在vision或者learning提出的一些新方法,已經(jīng)是被他們以另外一種形式或者名稱提出過(guò)了。
o????做Tracking, video, 和optimization的,可以看看控制論(Control theory)。控制科學(xué)對(duì)于動(dòng)態(tài)系統(tǒng)(或者其它隨時(shí)間變化的過(guò)程)的研究極為透徹。Alan本來(lái)是做控制的,正式他幾次強(qiáng)烈的建議下,我才去看動(dòng)態(tài)系統(tǒng)論和控制論,看過(guò)一些章節(jié)后有如醍醐灌頂。我曾經(jīng)自己花了不少時(shí)間導(dǎo)出的一組矩陣微分方程的解,就是control theory里面已有深入探討的Peano-Baker series在一定條件下的形式。至于做傳導(dǎo)模型或者semi-supervised learning的,控制論中的許多觀點(diǎn)和方法也是很有幫助的。
o????做Graphical model,和各種統(tǒng)計(jì)模型的,信息論(information theory)是肯定必要的,這個(gè)不用我在這啰嗦了。有一門(mén)叫做信息幾何學(xué)(information geometry),也值得一觀。
比較之下方顯差距。很多做Vision的朋友都是理論愛(ài)好者,喜歡在paper里面列舉公式以彰顯“理論深度”——可是,我看過(guò)的大部分的文章中的公式推演,一般都是循規(guī)蹈矩的推導(dǎo),其水平未必勝于求解一道經(jīng)典教科書(shū)中的數(shù)學(xué)習(xí)題。誠(chéng)然,這種推理演繹是整個(gè)研究中不可缺少的部分,寫(xiě)在文章中也無(wú)可厚非,但是,如果僅此則把推演結(jié)果列為theoretical contribution,則不免為過(guò)了。真正意義的理論貢獻(xiàn)者,不在文中公式多寡,也不在數(shù)學(xué)深淺,而在于是否能對(duì)問(wèn)題的內(nèi)在原理展開(kāi)深入剖析,有所發(fā)現(xiàn),言人之未嘗言,給人以新的啟發(fā)。
作為經(jīng)典物理基礎(chǔ)的牛頓三定律,從現(xiàn)在vision領(lǐng)域的眼光看來(lái),不過(guò)是對(duì)實(shí)驗(yàn)的總結(jié),所得結(jié)論,除了第二定律有一簡(jiǎn)單乘法公式(往高深處說(shuō),也不過(guò)是常系數(shù)線性二階常微分方程)之外,并無(wú)太多數(shù)學(xué)深入其中。雖如此,經(jīng)典物理的巍峨大廈由此奠定。也許這個(gè)例子類(lèi)比Vision的研究,未必恰當(dāng),但是,它起碼可以說(shuō)明,理論貢獻(xiàn)之義在于去蕪存菁,也就是排開(kāi)紛繁復(fù)雜的表象,發(fā)掘那個(gè)深刻但是簡(jiǎn)單的規(guī)律。可是,在vision paper宣稱的理論貢獻(xiàn)中,有多少循此義而行,又有多少在鉛華凈盡之后留傳下來(lái)。
縱理論上根基不足,但Vision終究是應(yīng)用學(xué)科,若能廣泛應(yīng)用則其意義必能發(fā)揚(yáng)。雖然經(jīng)過(guò)幾十年努力,vision確實(shí)在社會(huì)生活中有了不少各種應(yīng)用,不過(guò)比起其它學(xué)科則相形見(jiàn)拙。且不說(shuō)諸如通信,軟件工程之類(lèi)早已在全球形成龐大產(chǎn)業(yè),與vision有更多聯(lián)系的video coding,signal processing, 和medical image,其應(yīng)用之深廣也為vision所望塵莫及。vision沒(méi)能形成應(yīng)有的工業(yè)應(yīng)用,一則確實(shí)是它面臨的實(shí)際問(wèn)題困難重重,實(shí)用水平不易達(dá)到,二則與我們的研究在相當(dāng)程度上脫離實(shí)際有著很大關(guān)聯(lián)。
以我以往在香港學(xué)習(xí)時(shí)所做的face recognition來(lái)說(shuō),這是一個(gè)應(yīng)用性很強(qiáng)的topic,歷史也不短,但在實(shí)際條件下的識(shí)別水平,做這個(gè)的朋友也心里明白。很多人在研究這個(gè)topic,發(fā)表的“新方法”也不少,在paper上識(shí)別正確率不達(dá)到90%是拿不出手的——可是在那幾個(gè)標(biāo)準(zhǔn)庫(kù)(即使是最新的FRGC)上做出的性能和實(shí)際的有多大的差距?很多工作assume頭像區(qū)域都對(duì)齊良好,光照條件規(guī)則,在此條件下研究出來(lái)的算法即使能達(dá)到100%的識(shí)別性能,在環(huán)境極為復(fù)雜的條件下能真的應(yīng)用么?直到今天,大批文章仍在樂(lè)此不疲地討論各種subspace, kernel, svm, boosting的變化花樣,卻從不思考人臉識(shí)別的真正要素所在,難道不是舍本逐末之舉。?
與此同時(shí),許多在實(shí)際工程實(shí)踐中的trick,為性能提高立下汗馬功勞,卻因?yàn)闆](méi)有“理論深度”,不登大雅之堂,即使見(jiàn)諸論文,也是在實(shí)驗(yàn)部分草略帶過(guò)。然而,一個(gè)方法,無(wú)論其最初提出是否有理論依據(jù),如果確實(shí)能解決問(wèn)題,則必有其原因。若能靜下心來(lái),暫時(shí)忘記那些僅憑思辨就形成的所謂美妙理論,下功夫探究一些確實(shí)能解決問(wèn)題的方法背后所原之學(xué)理,其意義不是更大么。也許每個(gè)這樣的工作都很細(xì)小,真能積累下來(lái),假以時(shí)日,在推動(dòng)某個(gè)方面的應(yīng)用上必有實(shí)實(shí)在在的進(jìn)益。其中,也可能有機(jī)會(huì)總結(jié)出一些真正有價(jià)值的理論。
自誕生以來(lái),Vision的發(fā)展已歷數(shù)十年,不過(guò)和許多領(lǐng)域相比,仍處于初始階段,根基尚顯孱弱混亂。唯因如此,對(duì)身處其中的研究者,更具挑戰(zhàn)意義,而每一個(gè)真正的貢獻(xiàn)也顯得特別有價(jià)值。治學(xué)之道,不在追逐潮流,而在深原其理。這是新學(xué)期新帳號(hào)第一次寫(xiě)blog,謹(jǐn)以此,和每一位熱愛(ài)研究的朋友共勉。
總結(jié)
以上是生活随笔為你收集整理的计算机视觉Computer Vision的尴尬---by林达华的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Li Fei-fei写给她学生的一封信,
- 下一篇: 机器学习的数学基础(1)--Dirich