NEIL: Extracting Visual Knowledge from Web Data
知識圖譜總結(jié)
常識知識圖譜:
Cyc:An introduction to the syntax and content of cyc
ConceptNet:“Conceptnet—a practical commonsense reasoning tool
NEIL: Extracting Visual Knowledge from Web Data
- 知識圖譜總結(jié)
- 背景
- 動機
- NEIL可行原因:
- 貢獻(xiàn)
- 相關(guān)工作
- 3、技術(shù)方法
- 3.1 通過谷歌圖像搜索的種子分類器
- 3.2 關(guān)系抽取
- 3.3 通過標(biāo)記新實例進行再訓(xùn)練
- 實驗細(xì)節(jié)
- 4、實驗結(jié)果
- 4.1 NEIL的統(tǒng)計數(shù)據(jù)
- 4.2 定性細(xì)節(jié)
- 4.3 通過人體受試者評估質(zhì)量
- 4.4 運用知識完成視覺任務(wù)
背景
提出了NEIL(永無休止的圖像學(xué)者),一個每天24小時,每周7天運行的計算機程序,自動從互聯(lián)網(wǎng)數(shù)據(jù)中提取視覺知識。NEIL使用一種半監(jiān)督學(xué)習(xí)算法來共同發(fā)現(xiàn)常識關(guān)系(例如,“Corolla是一種/看起來類似于Car”,“Wheel是Car的一部分”),并給給定的視覺類別的實例標(biāo)上標(biāo)簽,這是一個嘗試開發(fā)世界上最大的可視化結(jié)構(gòu)化知識庫,以最少的人力標(biāo)記工作。截至2013年10月10日,NEIL已經(jīng)在200個核心集群(超過350K CPU小時)上連續(xù)運行了2.5個月,擁有1152個對象類別、1034個場景類別和87個屬性的本體。在此期間,NEIL發(fā)現(xiàn)了1700多個關(guān)系,標(biāo)記了400K多個可視化實例。
動機
計算機視覺最近的成功主要歸功于視覺知識的不斷增長,如場景、物體、動作、屬性以及它們之間的上下文關(guān)系等。但當(dāng)我們繼續(xù)前進時,一個關(guān)鍵的問題出現(xiàn)了:我們?nèi)绾卧谝粋€巨大的規(guī)模上收集這些結(jié)構(gòu)化的視覺知識?最近的嘗試如ImageNet和Visipedia試圖利用人類智能來完成這項任務(wù),我們認(rèn)為這類方法缺乏收集大量視覺知識所需的豐富性和可伸縮性。ImageNet中只有7%的數(shù)據(jù)有邊界框,關(guān)系仍然通過Wordnet提取。本文提出了一種從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中自動提取視覺知識的方法,從圖像和視頻中自動提取知識的可行性本身取決于計算機視覺的技術(shù)水平。雖然我們已經(jīng)見證了檢測和識別任務(wù)的重大進展,但要自動提取給定圖像的語義內(nèi)容,我們還有很長的路要走。那么,真的有可能使用現(xiàn)有的方法直接從網(wǎng)絡(luò)數(shù)據(jù)中收集視覺知識嗎?
1.1 NEIL:一個每天24小時,每周7天運行的計算機程序。為了(1)語義理解網(wǎng)絡(luò)上的圖像
(2)利用語義理解,用新的標(biāo)記實例和常識關(guān)系來拓展其知識庫(3)使用這個數(shù)據(jù)集和這些關(guān)系構(gòu)建更好的分類器和檢測器,反過來有助于提高語義理解。
NEIL是一個受約束的半監(jiān)督學(xué)習(xí)系統(tǒng),利用大規(guī)模的視覺數(shù)據(jù)來自動提取常識關(guān)系,然后用這些關(guān)系來標(biāo)記現(xiàn)有類別的視覺實例,是一種嘗試以最少的人力開發(fā)世界上最大的視覺結(jié)構(gòu)化知識庫(反應(yīng)互聯(lián)網(wǎng)上圖像的事實內(nèi)容的知識庫,這將對許多計算機視覺和人工智能工作有用)。
NEIL可以使用web數(shù)據(jù)提取(1)帶有邊界框的對象類別的標(biāo)記實例(2)已標(biāo)記的場景實例(3)標(biāo)記屬性的例子(4)物體類別的可視子類(5)關(guān)于場景、物體和屬性的常識關(guān)系。
NEIL可行原因:
(1)宏觀視野vs.微觀視野:
“微觀視野”這個術(shù)語來指代傳統(tǒng)范式:輸入是一張圖像,輸出是從圖像中提取的一些信息。
“宏觀視野”定義為一種范式:輸入是大量圖像,所需的輸出是在視覺數(shù)據(jù)中提取重要或有趣的模式(例如,在賽道上經(jīng)常檢測到汽車)。這些模式幫助我們提取常識關(guān)系。
注意,關(guān)鍵的區(qū)別在于,宏觀視覺不需要我們理解語料庫中的每一幅圖像,并提取出所有可能的模式。相反,它依賴于理解一些圖像,并從統(tǒng)計上結(jié)合這些證據(jù)來建立我們的視覺知識。
(2)視覺世界的結(jié)構(gòu):利用視覺世界的結(jié)構(gòu),建立了檢測和分類的約束,這些全局約束以類別之間的常識關(guān)系表示,大多數(shù)以前的工作使用手工定義的關(guān)系或在監(jiān)督設(shè)置中學(xué)習(xí)關(guān)系。我們的關(guān)鍵見解是,在大范圍內(nèi),人們可以在聯(lián)合半監(jiān)督學(xué)習(xí)框架中同時標(biāo)記可視化實例和提取常識關(guān)系。
(3)語義驅(qū)動知識獲取,對視覺知識使用語義表示,基于語義類別對視覺數(shù)據(jù)進行分組,并建立語義類別之間的關(guān)系,這允許使用基于文本的索引工具來初始化可視化知識庫學(xué)習(xí)。
貢獻(xiàn)
(1)提出了一種通過宏觀視野從互聯(lián)網(wǎng)上收集視覺知識的永不停歇的學(xué)習(xí)算法。在一個200核的集群上,NEIL已經(jīng)連續(xù)運行了2.5個月;
(2)正在自動地建立一個大型的可視化結(jié)構(gòu)化知識庫,它不僅包括場景、對象和屬性的標(biāo)記實例,還包括它們之間的關(guān)系。雖然NEIL的核心SSL算法使用固定的詞匯表,但也使用來自NELL本體的名詞短語來增加我們的詞匯表。目前,我們不斷增長的知識庫擁有1152個對象類別、1034個場景類別和87個屬性的本體。NEIL已經(jīng)發(fā)現(xiàn)了1700多種關(guān)系,并標(biāo)記了這些類別的400K多個可視化實例。
(3)我們展示了在巨大的規(guī)模下聯(lián)合發(fā)現(xiàn)關(guān)系和標(biāo)記實例如何為改善半監(jiān)督學(xué)習(xí)提供約束。
相關(guān)工作
近年來的研究主要集中在以大數(shù)據(jù)集的形式提取知識進行識別和分類。
構(gòu)建數(shù)據(jù)集常用的方法是由積極的團隊或者群體的力量進行手動注釋,為了最大限度地減少人工工作量,最近的研究也集中在主動學(xué)習(xí),主動學(xué)習(xí)選擇最有信息的標(biāo)簽請求。然而,這兩個方向都有一個主要的限制:注釋代價昂貴,容易出錯。有偏差而且不能伸縮。
另一種方法是使用視覺識別從互聯(lián)網(wǎng)上自動提取這些數(shù)據(jù)集。自動創(chuàng)建數(shù)據(jù)集最常用的一種方法是使用圖像搜索結(jié)果,并通過視覺分類器或是文本和視覺空間中的某種形式的聯(lián)合聚類對其進行重新排序。另一種使用半監(jiān)督框架,少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)一起使用,來學(xué)習(xí)可靠和健壯的可視化模型,這些種子圖像可以手動標(biāo)記或者基于文本搜索的手動檢索。
自動化方法的問題是少量的標(biāo)記實例或圖像搜索結(jié)果不能為學(xué)習(xí)魯棒的視覺分類器提供足夠的約束,這些方法存在著語義偏移(避免語義偏移的一種方法是利用基于可視數(shù)據(jù)的附加約束:基于視覺相似度、語義相似度或者多個特征空間,這些約束在本質(zhì)上是弱的,視覺相似性僅僅建模了視覺相似的圖像應(yīng)該受到相同的標(biāo)簽的約束,另一方面,我們的視覺世界是高度結(jié)構(gòu)化的,物體種類共享部分屬性,對象和場景有很強的上下文關(guān)系),因此需要一種方法來捕捉視覺世界的豐富結(jié)構(gòu),并且在半監(jiān)督學(xué)習(xí)中利用這種結(jié)構(gòu)。
近年來通過上下文關(guān)系建模我們視覺世界的豐富結(jié)構(gòu)方面取得了巨大的進步,所有的這些關(guān)系可以提供豐富的約束,這些約束可以幫助改進SSL。但是最大的問題是如何獲得這些關(guān)系。
一種是通過文本分析的方法,然而正如已經(jīng)指出的那樣,我們需要獲得的視覺知識如此明顯,以至于沒有人會花時間把它寫下來并放到網(wǎng)上。
在這項工作中,我們認(rèn)為在大規(guī)模情況下,人們可以共同發(fā)現(xiàn)關(guān)系和約束SSL問題來提取視覺知識和學(xué)習(xí)視覺分類器和檢測器。根據(jù)基于文本的永不停息的學(xué)習(xí)算法,我們提出一種永不停息的視覺學(xué)習(xí)算法,該算法在提取全局關(guān)系、標(biāo)記數(shù)據(jù)和學(xué)習(xí)分類器、檢測器之間循環(huán),用于從互聯(lián)網(wǎng)構(gòu)建視覺知識,我們的工作也與屬性發(fā)現(xiàn)有關(guān)。在我們的示例中,只關(guān)注語義屬性,目標(biāo)是發(fā)現(xiàn)語義關(guān)系并對可視化實例進行語義標(biāo)記。
3、技術(shù)方法
我們的目標(biāo)是從網(wǎng)絡(luò)上的視覺數(shù)據(jù)池中提取視覺知識。
視覺知識定義為任何有助于提高視覺任務(wù)(如圖像理解和物體/場景識別)的信息。
視覺知識的一種形式是標(biāo)記不同類別或標(biāo)記段/邊界的例子。標(biāo)記的例子幫助我們學(xué)習(xí)分類器或檢測器,并提高圖像理解能力。另一個視覺知識的例子是關(guān)系。例如,空間上下文關(guān)系可以用來提高物體識別的能力。本文將視覺知識表示為語義類別的標(biāo)注實例以及語義類別之間的關(guān)系。
我們的知識庫由以下的例子組成:(1)對象(如Car, Corolla);(2)場景(如Alley、Church);(3)屬性(如藍(lán)色、現(xiàn)代)。注意,基于對象,我們學(xué)習(xí)檢測器,對于場景,我們構(gòu)建分類器,然而在本文的其他部分,我們將交替使用術(shù)語檢測器和分類器。知識庫中包含四種關(guān)系:(1) Object-Object (e.g., Wheel is a part of Car);(2) Object-Attribute (e.g., Sheep is/has White);(3) Scene-Object (e.g., Car is found in Raceway); (4) Scene-Attribute (e.g., Alley is/has Narrow).
方法概要如圖所示:
使用谷歌搜索來下載每個對象、場景和屬性類別的數(shù)千張圖像,然后我們的方法使用一種迭代方法來清理標(biāo)簽,并以半監(jiān)督的方式訓(xùn)練檢測器、分類器。
對于一個給定的概念(如汽車),首先使用基于范例的聚類方法發(fā)現(xiàn)潛在的視覺子類別和這些子類別的邊界框。然后使用聚類和定位的結(jié)果訓(xùn)練一個概念的多個檢測器(每個子類別一個檢測器)。然后這些檢測器和分類器用于對數(shù)百萬幅圖像進行檢測,學(xué)習(xí)基于共發(fā)生統(tǒng)計的關(guān)系。
在這里,我們利用了我們對宏觀視角感興趣的事實,因此只使用自信檢測/分類構(gòu)建共現(xiàn)統(tǒng)計。一旦我們有了關(guān)系,我們將它們與我們的分類器和檢測器一起使用來標(biāo)記大量的噪聲圖像(第3.3節(jié))。將最有信心的標(biāo)記圖像添加到標(biāo)記數(shù)據(jù)池中,并用于重新訓(xùn)練模型,這個過程會不斷重復(fù)。在每次迭代中,我們學(xué)習(xí)更好的分類器和檢測器,這反過來幫助我們學(xué)習(xí)更多的關(guān)系,并進一步約束半監(jiān)督學(xué)習(xí)問題。下面詳細(xì)描述每個步驟。
3.1 通過谷歌圖像搜索的種子分類器
半監(jiān)督算法的第一步是為視覺類別創(chuàng)建分類器。建立分類器的一種方法是通過一些人工標(biāo)注的種子圖像。這里采用基于文本的圖像檢索引擎為訓(xùn)練初始化檢測器提供種子圖像。對于場景和屬性分類器,直接使用這些檢索到的圖像作為正數(shù)據(jù)。然而這種方法失敗的原因主要有四個:
(1)離群值,由于基于文本的圖像檢索不完善,下載的圖像通常有不相關(guān)的圖像/離群值
(2)一詞多義ii,很多情況下,語義類別可能會超載,一個語義類別可能有多個含義(apple可以同時表示公司和水果)
(3)視覺多樣性,由于不同的視點、光照等原因,檢索到的圖像可能存在著較大的類內(nèi)變異
(4)定位,在許多情況下,檢索到的圖像可能是一個沒有邊界框的場景,因此需要在訓(xùn)練檢測器之前對概念進行定位。
目前的大多數(shù)方法都通過聚類來處理這些問題。聚類有助于處理視覺多樣性和發(fā)現(xiàn)多義檢索,可以幫助我們根據(jù)聚類中心的距離來排除異常值,聚類的一種簡單方法是在所有可能的邊界框上使用k-means,然后使用具有代表性的集群作為視覺子類別。然而使用k-means聚類存在兩個問題:(1)高維性,我們使用color HOG表示和標(biāo)準(zhǔn)距離度量在高維中不能很好的工作(2)可伸縮性,大多數(shù)聚類方法傾向于劃分完整的特征空間,在給出的示例中,由于沒有提供邊框,所以每個圖像都會創(chuàng)建數(shù)百萬個數(shù)據(jù)點,其中大多數(shù)數(shù)據(jù)點都是異常值,最近的研究表明,k-means是不可伸縮的,由于他為每個數(shù)據(jù)點分配成員,所以性能很差。
建議對聚類使用以下兩步方法:第一步,從谷歌image search中挖掘下載的圖像集用來創(chuàng)建候選對象窗口,具體來說,每一幅圖像都用于使用最近提出的exemplar-LDA訓(xùn)練檢測器,然后使用這些探測器對下載的同一組圖像進行密集檢測,從多個檢測器中選擇得分較高的前k個窗口,修剪出異常值,因為候選窗口是通過代表性選擇的,在圖三中,沒有任何一個三輪車探測器指向圓點或是人們吃東西這樣的異常點,這些圖像在候選階段已經(jīng)被拒絕,一旦有了候選窗口,就在下一步對他們進行聚類。但是不使用高維的CHOG表示來進行聚類,使用每個窗口的檢測痕跡(表示為窗口上種子檢測器的ELDA分?jǐn)?shù)的向量)創(chuàng)建K*K親和矩陣,親和矩陣的元素(i,j)項是窗口i和j的這個向量的點積。直觀的說,如果在兩個窗口上觸發(fā)了同一組檢測器,這一步將連接候選窗口,一旦有了親和力矩陣,將使用標(biāo)準(zhǔn)的親和性傳播算法對候選窗口進行聚類,親和傳播算法允許我們?yōu)槊總€聚類提取一個代表性窗口,充當(dāng)對象的標(biāo)志性圖像。聚類之后我們使用集群中四分之三的圖像為每個聚類/子類別訓(xùn)練一個檢測器,剩下的四分之一用作校準(zhǔn)的驗證集。
3.2 關(guān)系抽取
一旦我們初始化了對象檢測器、屬性檢測器、屬性分類器和場景分類器,我們可以使用它們自動地從數(shù)據(jù)中提取關(guān)系,核心思想是:我們不需要從互聯(lián)網(wǎng)上下載每一張圖像,而是要大規(guī)模檢測和分類的統(tǒng)計模式。這些模式可用于在每次迭代關(guān)系中選擇top-N關(guān)系。具體來說,我們提取了四種不同的關(guān)系:
(1)object-object關(guān)系:
1)包括部分關(guān)系如眼睛是嬰兒的一部分
2)分類關(guān)系:如BMW320是一種車
3)相似性關(guān)系:如天鵝與鵝看起來相似。
為了提取這些關(guān)系,首先構(gòu)建一個共檢測矩陣,矩陣中的元素表示同時檢測到對象類別i和j的概率。直觀上,當(dāng)對象檢測器i檢測到的包圍框中包含的對象j時,共檢測矩陣中的值就高。
為了考慮到到處發(fā)射的探測器和有很多探測的圖像,將共檢測矩陣歸一化,歸一化的矩陣中的元素表示檢測器i對于圖像物體類別j的頂部檢測的平均分。
一旦我們選擇了一種類別之間的關(guān)系,我們會學(xué)習(xí)他在相對位置、相對長寬比、相對分?jǐn)?shù)和檢測大小的均值和方差方面的特征。例如,鼻子和臉的關(guān)系特征是低相對窗口大小(鼻子小于面部面積的20%,鼻子的相對位置在臉的中心)。這用來定義兼容函數(shù),兼容函數(shù)用來評價i類和j類的檢測是否兼容。還定義相對特征將關(guān)系劃分為兩個語義類別(部分的、分類的/相似的)以使可視化數(shù)據(jù)庫具有人類可交流的觀點。
(2)object-attribute關(guān)系:第二種關(guān)系是對象-屬性關(guān)系,比如披薩是圓的,向日葵是黃色的。
為了提取這些關(guān)系,我們使用和在已標(biāo)記的示例中檢測屬性的相同辦法,這些檢測和他們的分?jǐn)?shù)被用來建立一個規(guī)范化的共同檢測矩陣,該矩陣被用來尋找最相關(guān)的對象-屬性關(guān)系
(3)scence-object關(guān)系:該算法提取的第三類關(guān)系是場景-物體關(guān)系,包括車輛段有公交車、監(jiān)控室里由監(jiān)視器等關(guān)系,為了提取場景與物體之間的關(guān)系,在不同場景類別的隨機采樣圖像上使用物體檢測器,然后使用這些檢測結(jié)果來創(chuàng)建規(guī)范化的共存矩陣(類似于對象-對象關(guān)系),矩陣中中元素表示物體類別i和場景類別j的實例檢測的可能性。
(4)Scene-Attribute關(guān)系:提取的場景-屬性關(guān)系包括海是藍(lán)色的,巷子是窄的等場景屬性關(guān)系,這里采用一種簡單的場景-屬性關(guān)系提取方法:計算聯(lián)合矩陣,矩陣中的元素表示屬性i在場景圖象j上的平均分類分?jǐn)?shù),共分類矩陣最上邊的條目用于提取場景-屬性關(guān)系。
3.3 通過標(biāo)記新實例進行再訓(xùn)練
一旦我們擁有了一組初始化的分類器/檢測器和一組關(guān)系,我們使用他們來找到不同對象和場景類別的新實例,然后將這些新實例添加到已經(jīng)標(biāo)記的數(shù)據(jù)集中,使用已經(jīng)更新的已標(biāo)記數(shù)據(jù)重新訓(xùn)練新的分類器/檢測器,然后這些新的分類器被用來提取更多的關(guān)系,這些關(guān)系有被用來標(biāo)記更多的數(shù)據(jù)等等。
找到新實例的一種方法是直接使用檢測器本身,例如使用汽車檢測器來尋找更多的汽車,然而這種方法會產(chǎn)生語義漂移,為了避免語義漂移,我們使用上一節(jié)中提取的豐富關(guān)系集,并確保新標(biāo)記的汽車實例滿足提取的關(guān)系。(例如:有輪子,在跑道中找到)
用RoR_{o}Ro?,RAR_{A}RA?和RSR_{S}RS?表示在t次迭代中object-object,object-attribute和scence-object集,如果?i\phi _{i}?i?表示從物體檢測器i中檢測到的物體,ωk\omega _{k}ωk?表示場景檢測器中的場景,ψi,j\psi _{i,j}ψi,j?表示兩個物體種類之間的兼容性函數(shù),那我們可以使用下方的上下文得分函數(shù)找到物體類別i的新實例:
?i(x)+∑i,j?RO∪RA?j(xl)ψi,j(x,xl)+∑i,k?Rsωk(x)\phi _{i}(x)+\sum_{i,j\epsilon R_{O}\cup R_{A}}\phi _{j}(x_{l})\psi _{i,j}(x,x_{l})+\sum_{i,k\epsilon R_{s}}\omega _{k}(x)?i?(x)+i,j?RO?∪RA?∑??j?(xl?)ψi,j?(x,xl?)+i,k?Rs?∑?ωk?(x)
其中xxx表示被評估的窗口,xlx_{l}xl?表示相關(guān)的物體/屬性類別的頂部檢測器的窗口。
上述的等式由三部分:
第一部分是物體類別部分,通過窗口xxx的svm探測器的分?jǐn)?shù)計量。
第二個部分時如果物體類別i和物體屬性類別j存在有關(guān)系(i,j)時這個類別的一部分的兼容性,例如如果車輪是汽車的一部分存在在類別中,這個部分將會是車輪檢測器的得分和車輪的窗口xxx和汽車的窗口xxx之間的兼容性得分。
最后一個部分是計量場景-圖像的兼容性,因此,如果知識庫中包含關(guān)系“汽車被發(fā)現(xiàn)在公路上”,這部分提高了賽車在公路場景中的檢測分?jǐn)?shù),在每次迭代中,我們還添加了不同場景類別的新實例,使用下面給出的上下文評分函數(shù)找到場景類別k的新實例:
ωk(x)+∑m.k?RA‘ωm(x)+∑i,k?Rs?i(xl)\omega _{k}(x)+\sum_{m.k\epsilon R_{A`}}\omega _{m}(x)+\sum_{i,k\epsilon R_{s}}\phi _{i}(x_{l})ωk?(x)+m.k?RA‘?∑?ωm?(x)+i,k?Rs?∑??i?(xl?)
其中RA‘R_{A`}RA‘?表示場景-屬性關(guān)系,上式中由三個部分:
第一部分是場景類別本身的外觀項,使用場景分類器進行估計,第二部分是屬性類別的外觀項,使用屬性分類器進行估計,這個部分保證如果場景-屬性關(guān)系存在則屬性分類器的得分應(yīng)該是高的。
第三部分是物體類別的外觀項,使用相應(yīng)的物體探測器進行估計,這個部分保證如果場景-物體關(guān)系存在,那么物體檢測器應(yīng)該能夠在檢測場景中檢測到物體。
實驗細(xì)節(jié)
為了訓(xùn)練場景和屬性分類器,首先從每個圖像中提取3912維特征向量。特征向量包括512D GIST特征,并且結(jié)合SIFT、HOG、實驗室的顏色空間和紋理基元,字典的大小分別為1000,1000,400,1000。從其他類別中隨機抽取窗口的特征值作為反例,用于支持向量機訓(xùn)練和硬挖掘。對于物體和屬性部分,我們使用CHOG特征,其bin大小為8,我們使用潛在支持向量機模型(不含部件)訓(xùn)練檢測器。
4、實驗結(jié)果
通過定性結(jié)果、通過人體實驗進行驗證以及對象檢測和場景識別等任務(wù)的定量結(jié)果來證明視覺知識的質(zhì)量。
4.1 NEIL的統(tǒng)計數(shù)據(jù)
NEIL的核心算法時使用固定的詞匯,我們使用來自NEIL的名詞短語來增加NEIL的詞匯。
截至2013年10月10日,尼爾擁有1152個物體類別、1034個場景類別和87個屬性,已經(jīng)下載了超過200萬張圖片來提取當(dāng)前的結(jié)構(gòu)化知識。
為了引導(dǎo)我們的系統(tǒng),使用一些來自imagnet、sun或者來自谷歌image search的top圖像,為了在本文中進行廣泛的實驗評估。在過去的2.5個月里,我們在steroid上訓(xùn)練了NEIL(200核而不是通常使用的30核),NEIL已經(jīng)完成了16次迭代,并且標(biāo)記了超過400k個視覺實例(包括30萬個帶有邊界框的對象)。提取了1703中常識關(guān)系,讀者可以瀏覽當(dāng)前的視覺知識庫,并且可以從www.neil-kb.com上下載探測器。
4.2 定性細(xì)節(jié)
首先展示了NEIL提取視覺知識的一些定性結(jié)果,圖4顯示了提取的可視化子類別,以及屬于每個子類別的幾個標(biāo)記實例。
從圖中可以看出,NEIL算法通過聚類過程有效地處理了類內(nèi)變異和多義問題。
不同概念集群的純粹性和多樣性表明,上下文關(guān)系有助于我們的系統(tǒng)對語義漂移的魯棒性,以及確保多樣性。圖5顯示了尼爾提取的場景-對象和對象-對象關(guān)系的一些定性示例。它有效地使用一些自信檢測來提取有趣的關(guān)系。
圖6顯示了NEIL提取的一些有趣的場景-屬性和對象-屬性關(guān)系。
4.3 通過人體受試者評估質(zhì)量
接下來需要評估NEIL提取的視覺知識的質(zhì)量。需要指出的是對整個NEIL系統(tǒng)進行廣泛而全面的評估是一項極其困難的任務(wù)。評估每一個標(biāo)記實例和每一個關(guān)系的正確性是不切實際的。因此,我們隨機抽取500個可視化實例和500個關(guān)系,并使用人類專家來驗證它們。在第6次迭代結(jié)束時,尼爾提取的關(guān)系有79%是正確的,尼爾標(biāo)記的視覺數(shù)據(jù)有98%是正確的。我們還評估了每個迭代的關(guān)系正確性:在迭代1時,超過96%的關(guān)系是正確的,到迭代3時,系統(tǒng)穩(wěn)定,提取的關(guān)系是正確的80%。雖然目前系統(tǒng)沒有顯示出任何主要的語義漂移,但隨著尼爾年齡的增長,我們確實計劃繼續(xù)評估和廣泛分析知識庫。還評估了尼爾生成的邊界盒的質(zhì)量。為此隨機抽取了100幅圖像,并標(biāo)記了真實邊界框。在標(biāo)準(zhǔn)的交集-聯(lián)合度量中,NEIL生成的邊界盒與地面真實值平均重疊0.78次,為了說明任務(wù)的難度,標(biāo)準(zhǔn)的Objectness算法生成的邊界框平均有0.59個重疊。
4.4 運用知識完成視覺任務(wù)
最后,我們想展示NEIL學(xué)到的視覺知識在標(biāo)準(zhǔn)視覺任務(wù)上的有用性:如物體檢測和場景分類。
在這里,我們還將比較我們方法的幾個方面:
(a)我們首先比較我們自動標(biāo)記的數(shù)據(jù)集的質(zhì)量。作為基線,我們直接在從谷歌Image Search下載的種子圖像上訓(xùn)練分類器/檢測器。
(b)我們將尼爾方法與不提取/使用關(guān)系的標(biāo)準(zhǔn)自舉方法進行比較(c)最后,我們將通過檢測和分類具有和不具有學(xué)習(xí)到的關(guān)系的新的測試數(shù)據(jù)來證明關(guān)系的有用性。
場景分類:
首先為場景分類任務(wù)評估我們的視覺知識。我們使用Flickr圖片構(gòu)建了一個包含600張圖片(12個場景類別)的數(shù)據(jù)集。我們將我們的場景分類器的性能與從谷歌圖像搜索(我們的種子分類器)的前15幅圖像訓(xùn)練的場景分類器進行比較。我們還將性能與不使用任何關(guān)系提取的標(biāo)準(zhǔn)自舉方法進行比較。表1顯示了結(jié)果。
我們使用平均精度(mean average precision, mAP)作為評價指標(biāo)。結(jié)果表明,自動關(guān)系提取有助于約束學(xué)習(xí)問題,因此學(xué)習(xí)后的分類器具有更好的性能。最后,如果我們也使用來自尼爾關(guān)系的上下文信息,我們的表現(xiàn)就會得到顯著的提升。
物體檢測:
我們也評估我們提取的視覺知識的任務(wù)的目標(biāo)檢測。我們使用Flickr數(shù)據(jù)進行測試,構(gòu)建了包含1000張圖片(15個對象類別)的數(shù)據(jù)集。我們將性能與直接使用來自谷歌Image Search的圖像(top-50和top-450)訓(xùn)練的目標(biāo)檢測器進行比較。我們也比較了在寬高比、HOG聚類和我們提出的聚類程序后訓(xùn)練的檢測器的性能。表2顯示了檢測結(jié)果。
使用來自谷歌圖像搜索的450張圖像會因為噪聲檢索而降低性能。雖然其他的聚類方法也有幫助,但我們的聚類過程的收獲要大得多。最后,使用NEIL訓(xùn)練的探測器比標(biāo)準(zhǔn)自舉工作得更好。
總結(jié)
以上是生活随笔為你收集整理的NEIL: Extracting Visual Knowledge from Web Data的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5G(IMT-2020)简介
- 下一篇: 计算机实验小学教导主任,小学教导主任职责