计算机视觉一些项目实战技术
計(jì)算機(jī)視覺(jué)一些項(xiàng)目實(shí)戰(zhàn)技術(shù)
- SELECTIVE SEARCH FOR OBJECT LOCALISATION
需要多種策略來(lái)查找上述圖像中的所有對(duì)象。勺子在桌子上的沙拉碗里。因此,圖像本質(zhì)上是層次性的,需要所有的尺度來(lái)找到這些物體。在(b)中,貓可以用顏色而不是質(zhì)地來(lái)區(qū)分,而在(c)中,反面是駱駝。在(d)中,車(chē)輪是汽車(chē)的一部分,因?yàn)楸卉?chē)身包圍著,而在顏色和質(zhì)地上都有很大的不同。
傳統(tǒng)的分割方法是在任何識(shí)別之前,先將圖像分割成唯一的對(duì)象。由于這是非常困難的,如果不是不可能的(見(jiàn)下圖),研究人員通過(guò)在圖像中執(zhí)行詳盡的搜索(即滑動(dòng)窗口方法)來(lái)通過(guò)識(shí)別定位對(duì)象。但這忽略了低級(jí)線(xiàn)索中所有有用的信息。因此,建議將兩個(gè)世界的優(yōu)點(diǎn)結(jié)合到一個(gè)數(shù)據(jù)驅(qū)動(dòng)的選擇性搜索中:利用圖像的結(jié)構(gòu)進(jìn)行分割。目標(biāo)是在窮舉搜索中生成所有可能的目標(biāo)位置。
建議使采樣技術(shù)多樣化,以盡可能多地考慮圖像條件:
使用層次分組來(lái)處理所有可能的對(duì)象比例
使用不同的分組策略,并且各不相同:
處理不同不變性的圖像顏色空間
基于區(qū)域的相似度函數(shù)處理對(duì)象的多樣性。特別是,用顏色、質(zhì)地、大小和/或內(nèi)在的相似性來(lái)衡量。
最終的算法快速而準(zhǔn)確:在4秒內(nèi),可以生成2134個(gè)盒子,平均最佳帕斯卡重疊(Average Best Pascal Overlap)分?jǐn)?shù)為0.804。這套小的質(zhì)量好的盒子可以讓用字袋來(lái)定位物體。通過(guò)該系統(tǒng),贏得了2011年ImageNet大規(guī)模檢測(cè)挑戰(zhàn)賽和2012年P(guān)ascal VOC檢測(cè)挑戰(zhàn)賽。
2. THE VISUAL EXTENT OF AN OBJECT
可視化分類(lèi)證據(jù)在“貓”身上的位置。黃色表示強(qiáng)陽(yáng)性證據(jù),藍(lán)色表示強(qiáng)陰性證據(jù),灰色為中性。
雖然“字袋”被廣泛使用,但其確切的工作原理卻不太為人所理解。在這個(gè)項(xiàng)目中,對(duì)物體的視覺(jué)范圍和語(yǔ)境的作用進(jìn)行了理論研究。為此,開(kāi)發(fā)了一種技術(shù),將單詞袋法的分類(lèi)證據(jù)反向投影到圖像中,以測(cè)量和可視化該方法如何對(duì)圖像進(jìn)行分類(lèi)。此外,為平均精度創(chuàng)建了一個(gè)混淆矩陣。利用這些工具,從兩個(gè)角度進(jìn)行了理論研究:
(a)在不知道目標(biāo)位置的情況下,確定了在圖像中支持目標(biāo)分類(lèi)的位置。
(b)假設(shè)對(duì)象周?chē)幸粋€(gè)理想的長(zhǎng)方體,評(píng)估對(duì)象內(nèi)部、對(duì)象邊界和環(huán)繞的相對(duì)貢獻(xiàn)。
在(a)中,發(fā)現(xiàn)周?chē)h(huán)境對(duì)物體分類(lèi)有顯著的貢獻(xiàn),而對(duì)于船來(lái)說(shuō),物體區(qū)域的貢獻(xiàn)是負(fù)的。在(b)中,發(fā)現(xiàn)環(huán)境不再起作用,證實(shí)了心理學(xué)中一個(gè)長(zhǎng)期存在的事實(shí)。不出所料,比較(a)和(b),有了良好的目標(biāo)定位,在精度上會(huì)有相當(dāng)大的提高。
此外,還改變了每個(gè)對(duì)象周?chē)纳舷挛臄?shù)量,以測(cè)量視覺(jué)范圍。發(fā)現(xiàn)視覺(jué)范圍是由其類(lèi)別決定的:定義良好的剛性對(duì)象將對(duì)象本身作為首選的空間范圍。非剛性對(duì)象具有無(wú)限的空間范圍:所有空間范圍都會(huì)產(chǎn)生同樣好的結(jié)果。主要根據(jù)功能分類(lèi)的對(duì)象將整個(gè)圖像作為其空間范圍。
3. ACTION/EVENT RECOGNITION USING LANGUAGE MODELS
在人類(lèi)行為識(shí)別和事件識(shí)別中,一個(gè)問(wèn)題是行為和事件的數(shù)量驚人。每個(gè)對(duì)象都可以使用許多動(dòng)詞進(jìn)行操作,從而產(chǎn)生大量可能的人類(lèi)行為。已經(jīng)有許多描述事件的詞,形容詞可以修飾事件。例如,印度婚禮(視覺(jué)上)不同于歐洲婚禮。因此,行動(dòng)和事件的數(shù)量都是巨大 的。
大多數(shù)視覺(jué)識(shí)別系統(tǒng)需要為所有類(lèi)提供視覺(jué)訓(xùn)練示例,這需要大量的人工注釋工作。相反,在本項(xiàng)目中,建議對(duì)動(dòng)作/事件的各個(gè)組件執(zhí)行視覺(jué)識(shí)別,并使用其來(lái)源了解如何通過(guò)其組件識(shí)別動(dòng)作和事件。
在ICMR論文中,目標(biāo)是通過(guò)對(duì)一個(gè)物體的視覺(jué)識(shí)別和定位來(lái)識(shí)別人類(lèi)的行為,并從語(yǔ)言中學(xué)習(xí)每個(gè)物體最合理的行為。為Pascal VOC 2007創(chuàng)建了一個(gè)新的數(shù)據(jù)集,對(duì)人類(lèi)行為進(jìn)行了注釋,結(jié)果得到了一個(gè)受20個(gè)對(duì)象類(lèi)別限制的操作數(shù)據(jù)集,但就單個(gè)對(duì)象發(fā)生的操作頻率而言,是無(wú)偏的(不像大多數(shù)操作識(shí)別數(shù)據(jù)集試圖在每個(gè)類(lèi)別中收集等量的示例)。
在這個(gè)框架中,比較了Felzenszwalb等人基于部分的視覺(jué)識(shí)別模型。利用自己的基于選擇性搜索的字袋識(shí)別模型,發(fā)現(xiàn)工作效果更好。此外,還比較了兩種語(yǔ)言模型LDA-R和TypeDM,發(fā)現(xiàn)TypeDM給出了最好的結(jié)果。最后,展示了本地化對(duì)象和語(yǔ)言模型的結(jié)合比最先進(jìn)的單詞包實(shí)現(xiàn)產(chǎn)生更好的結(jié)果。
在CVPR論文中,使用面分析綜合理論對(duì)Pascal VOC 2007數(shù)據(jù)集的事件進(jìn)行了注釋,該理論由圖書(shū)館和信息科學(xué)開(kāi)發(fā),用于組織大量的知識(shí)集合。由此產(chǎn)生的事件永遠(yuǎn)是真實(shí)的,可以看作是普遍知識(shí)的一個(gè)子集。展示了一種組合方法的前景,并證明了對(duì)于不可見(jiàn)事件識(shí)別給出了合理的結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的计算机视觉一些项目实战技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 目标识别的选择性搜索
- 下一篇: 计算机视觉一些项目实战技术(续)