cv是什么(计算机行业cv是什么)
下面這篇文章來自數(shù)據(jù)戰(zhàn)斗學(xué)校,作者是保羅·波普。
從數(shù)據(jù)轉(zhuǎn)到實戰(zhàn)派
作者:保羅·波普(神經(jīng)實驗室首席執(zhí)行官)
譯者:張育甲
原文:我們用算法觀察如何破壞計算機視覺:以及合成計算機視覺如何修復(fù)它
深度學(xué)習(xí)的出現(xiàn)帶動了整個機器學(xué)習(xí)領(lǐng)域的發(fā)展,以數(shù)據(jù)為中心的發(fā)展也是如此。
本文將討論主流計算機視覺(CV)的缺陷和未來的發(fā)展重點:合成計算機視覺(SCV)。
計算機視覺的現(xiàn)狀
根據(jù)Crunchbase的統(tǒng)計,過去8年對1800多家計算機視覺創(chuàng)始公司的投資價值超過150億美元。福布斯數(shù)據(jù)還表明,現(xiàn)在有20多家估值超過10億美元的CV公司,而且還在增加。
為什么這些公司的價值如此之高?因為它們教會計算機如何看待世界,并自動完成以前通過人類視覺完成的任務(wù)。
這種繁榮是2012年計算機視覺領(lǐng)域出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)之后才有的。神經(jīng)網(wǎng)絡(luò)是一種模擬人腦的算法,利用大量的人類標記數(shù)據(jù)進行訓(xùn)練。自2012年以來,該算法經(jīng)過多次穩(wěn)步改進,在一些視覺任務(wù)上的性能與人類相當(dāng),如目標計數(shù)、唇語識別或癌癥篩查。
在過去的10年里,很多人為計算機視覺的發(fā)展做出了貢獻:學(xué)術(shù)界研究了更好更先進的算法;大公司投資那些試圖給圖像數(shù)據(jù)集貼標簽的人。有些成果也會開源讓大家受益,比如包含1400萬圖像數(shù)據(jù)的ImageNet數(shù)據(jù)集。
然而,當(dāng)我們將這些系統(tǒng)部署到產(chǎn)品中時,我們會遇到以下問題:
1.現(xiàn)有的標注數(shù)據(jù)并不可靠。麻省理工學(xué)院的一個團隊在系統(tǒng)研究機器學(xué)習(xí)(ML)數(shù)據(jù)集時發(fā)現(xiàn),ImageNet數(shù)據(jù)集中標記錯誤的錯誤率為5.93%,其他數(shù)據(jù)集的平均錯誤率為3.4%。
2.很少有人去解決數(shù)據(jù)本身的問題。學(xué)術(shù)界大多把智慧集中在算法開發(fā)上,忽略了對好數(shù)據(jù)的需求。吳恩達曾經(jīng)說過,人們99%的注意力都集中在算法上,而只剩下1%的數(shù)據(jù)。
3.計算機視覺算法不能很好地從一個領(lǐng)域擴展到另一個領(lǐng)域。用于在法國南部檢測車輛的算法使得在白雪覆蓋的挪威檢測車輛變得困難。同樣,在特定相機上訓(xùn)練的系統(tǒng)很可能在另一個相機制造商或型號上失敗。
早在1946年,艾倫·都靈就提出將國際象棋作為計算機能力的評價標準之一。經(jīng)過更深入的研究,這個標準得到了很多媒體的認可。
Elo評分系統(tǒng)是一種普遍接受的衡量國際象棋表現(xiàn)的方法,它可以有效地比較每個人的國際象棋技能。下面是世界冠軍和棋牌游戲引擎的分數(shù)。過去50年,人類的表現(xiàn)一直徘徊在2800點,但在2010年被計算機超越。
近十年來,人類一直在根據(jù)自己能理解的規(guī)則設(shè)計象棋算法。但是,深度學(xué)習(xí)革命可以超越人類理解的范圍,帶來像計算機視覺一樣的飛躍。
圖|國際象棋引擎和人類ELO評分
雖然國際象棋游戲引擎在深度學(xué)習(xí)的技術(shù)下取得了不錯的進步,但是已經(jīng)被下一代國際象棋引擎超越:DeepMind的AlphaZero。更神奇的是,AlphaZero沒有使用任何人類提供的數(shù)據(jù)。它是在沒有任何國際象棋游戲知識的情況下建造的,也沒有任何關(guān)于最佳行走方式的人類指導(dǎo)。AlphaZero既是老師也是學(xué)生——通過比賽和自己學(xué)習(xí),自學(xué)如何更好地下棋。
AlphaZero一局未輸,擊敗了當(dāng)時最好的Stockfish 8引擎。即使給AlphaZero少一個數(shù)量級的考慮時間,這種優(yōu)勢依然可以保持。
看到AlphaZero取得的顯著成就,人們不禁要問:能否將其在國際象棋上的成功應(yīng)用于計算機視覺?
以數(shù)據(jù)為中心的人工智能
以數(shù)據(jù)為中心的人工智能的目的不是創(chuàng)造更好的算法,而是通過改變數(shù)據(jù)本身來提高模型性能。即使不考慮圖像數(shù)據(jù)集的獲取和標注難度,數(shù)據(jù)質(zhì)量的問題依然存在:數(shù)據(jù)是否覆蓋了所有可能的情況?你想報道邊境的情況嗎?
如果要構(gòu)建以數(shù)據(jù)為中心的計算機視覺,就必須控制數(shù)據(jù)的來源。為了使計算機視覺模型更好地學(xué)習(xí)和理解參數(shù),需要保證數(shù)據(jù)的平衡。
例如,我們想要控制三個參數(shù):相機角度、光照和遮擋。當(dāng)你收集這樣一個真實的數(shù)據(jù)集時,你必須設(shè)法控制這三個參數(shù)的值,同時收集1000個相關(guān)的圖像。但是有了這些真實的數(shù)據(jù),任務(wù)還是很艱巨的。
在過去的五年中,我們在優(yōu)化數(shù)據(jù)收集流程和提高數(shù)據(jù)標簽質(zhì)量方面取得了巨大進步。此外,將使用各種數(shù)據(jù)增強技術(shù)來充分利用數(shù)據(jù)集信息。例如,將一些數(shù)學(xué)函數(shù)應(yīng)用于數(shù)據(jù)集中的圖像,以創(chuàng)建更多樣化的數(shù)據(jù)。
目前,有400多家公司,總市值為1.3萬億美元(略高于臉書),滿足了當(dāng)今算法的數(shù)據(jù)需求。
然而,這些方法最終會走進死胡同嗎?算法在人類數(shù)據(jù)集上達到極限了嗎?就像我們在國際象棋中使用人類數(shù)據(jù)作為算法的輸入一樣,模型會受到數(shù)據(jù)集設(shè)計的限制,無法超越人類。
在國際象棋中,如果我們停止建立人類的數(shù)據(jù),允許機器建立自己的數(shù)據(jù)來優(yōu)化學(xué)習(xí)過程,那么后深度學(xué)習(xí)將會有所突破。在計算機視覺中,我們還必須允許機器獨立生成能夠促進其學(xué)習(xí)的數(shù)據(jù)。
CV:合成計算機視覺
通過虛擬現(xiàn)實引擎,可以更好地創(chuàng)建訓(xùn)練數(shù)據(jù)。在精度上,模型的輸出已經(jīng)達到了現(xiàn)實世界的標準。意味著可以通過模型生成智能數(shù)據(jù)來指導(dǎo)計算機視覺模型的學(xué)習(xí)。這種合成數(shù)據(jù)可以成為以數(shù)據(jù)為中心的人工智能框架的基礎(chǔ)。
因此,我認為現(xiàn)在有必要廣泛使用可視化合成數(shù)據(jù)。
虛擬現(xiàn)實引擎有專門的生成合成數(shù)據(jù)的組件(比如 NVIDIA IsaacSim,Unity Perception),這些合成數(shù)據(jù)不僅美觀,而且有助于訓(xùn)練更好的算法。
3D 功能正迅速成為一種必需品——最新的 iPhone 手機就配備了激光雷達(LiDAR)和用于 3D 掃描的應(yīng)用程序,來達到更好的性能。
元宇宙(Metaverse)的時代即將開始。人們將會漸漸習(xí)慣生活在虛擬現(xiàn)實的世界中。比如未來的寶馬制造廠和谷歌的孿生供應(yīng)鏈,就會應(yīng)用到數(shù)字孿生技術(shù)。行業(yè)的領(lǐng)頭者已經(jīng)開始使用虛擬現(xiàn)實技術(shù)來改進計算機視覺算法:特斯拉(Tesla)就在利用虛擬現(xiàn)實技術(shù)來生成駕駛場景的邊緣情況和更多的新視角。
如果我們有合適的工具來建立數(shù)據(jù)集,我們就可以省去手動標記數(shù)據(jù)的繁瑣過程,更好地開發(fā)和訓(xùn)練計算機視覺算法。Gartner認為,未來三年,合成數(shù)據(jù)將比真實數(shù)據(jù)更占優(yōu)勢。
如果我們向前邁一步呢?進入一個計算機視覺不需要人類標記圖像的世界。
通過合成計算機視覺,我們可以在虛擬現(xiàn)實中建立模型,并在現(xiàn)實世界中部署它們。就像在國際象棋比賽中,AlphaZero可以自己學(xué)習(xí)重要的部分,所以我們用算法來決定模型需要學(xué)習(xí)什么,才能達到最好的學(xué)習(xí)效果。
在合成計算機視覺(SCV)中,我們使用虛擬現(xiàn)實引擎來訓(xùn)練計算機視覺模型,并將訓(xùn)練好的模型部署到現(xiàn)實世界中。
人眼能看到的遠不如現(xiàn)實世界豐富,所以我們構(gòu)建的算法只能達到人類能理解和標記的信息范圍。但事實可能并非如此,因此我們可以為傳感器構(gòu)建算法,以測量人類感知范圍之外的事物。這些算法可以通過虛擬現(xiàn)實中的編程進行有效訓(xùn)練。
與其建立更大的模型,用更多的計算能力去解決問題,我們還不如獲得更好的對算法學(xué)習(xí)有幫助的數(shù)據(jù)。算法的學(xué)習(xí)不需要相同類型的數(shù)據(jù),而是各種不同的數(shù)據(jù)。
《深度心靈》顯示,AlphaZero只是一個開始,他們已經(jīng)將同樣的方法應(yīng)用到圍棋、星際爭霸和蛋白質(zhì)折疊中。現(xiàn)在我們已經(jīng)擁有了為計算機視覺構(gòu)建一個類似AlphaZero的系統(tǒng)的所有必要組件,這樣它就不會受到人類設(shè)計輸入的限制,可以自我學(xué)習(xí)。該系統(tǒng)可以創(chuàng)建和操作虛擬場景,并通過自學(xué)解決視覺自動化的任務(wù)。
合成計算機視覺是基于合成數(shù)據(jù)的。前期大概有30家左右的公司開始了可視化合成數(shù)據(jù)生成的業(yè)務(wù)。一些公司專注于一個垂直領(lǐng)域的特定用例,而大多數(shù)公司同時在多個垂直領(lǐng)域進行。
2021年只是新研究的開始,合成數(shù)據(jù)只是需要解決的問題的一小部分。
圖|合成數(shù)據(jù)公司
總結(jié)
以上是生活随笔為你收集整理的cv是什么(计算机行业cv是什么)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 去痘印产品排行榜(科颜氏上榜,理肤泉第一
- 下一篇: 沱沱工社(沱沱工社现在状况)