NEIL: Extracting Visual Knowledge from Web Data 论文笔记
論文結(jié)構(gòu)
- Neil:Never ending image learner
- Motivation
- NEIL
- Related Work
- Technical Approach
- Seeding Classifiers via Google Image Search
- Extracting Relationships
- Retraining via Labeling New Instances
Neil:Never ending image learner
NEIL: Extracting Visual Knowledge from Web Data
by: Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta
Carnegie Mellon University
www.neil-kb.com
NEIL(Never Ending Image Learner),這是一個(gè)每周 7 天、每天 24 小時(shí)運(yùn)行的計(jì)算機(jī)程序,用于從互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)提取視覺知識(shí)。 NEIL 使用半監(jiān)督學(xué)習(xí)算法(SSL semi-supervised learning) ,發(fā)現(xiàn)常識(shí)關(guān)系,并標(biāo)記給定視覺類別的實(shí)例。它試圖以最少的人工標(biāo)注工作量開發(fā)世界上最大的可視化結(jié)構(gòu)化知識(shí)庫。截至 2013 年 10 月 10 日,NEIL 已在 200 個(gè)核心集群(超過 350K CPU 小時(shí))上連續(xù)運(yùn)行 2.5 個(gè)月,擁有 1152 個(gè)對(duì)象類別、1034 個(gè)場(chǎng)景類別和 87 個(gè)屬性的本體。在此期間,NEIL 發(fā)現(xiàn)了 1700 多個(gè)關(guān)系,并標(biāo)記了 400K 多個(gè)視覺實(shí)例。
Motivation
計(jì)算機(jī)視覺最近的成功主要?dú)w因于視覺知識(shí)在場(chǎng)景、對(duì)象、動(dòng)作、屬性的標(biāo)記實(shí)例以及它們之間的上下文關(guān)系方面不斷增加的規(guī)模。但隨我們?nèi)绾未笠?guī)模收集這種結(jié)構(gòu)化的視覺知識(shí)? ImageNet和 Visipedia最近試圖利用人類智能來完成這項(xiàng)任務(wù)。然而,在提交時(shí),ImageNet 中只有 7% 的數(shù)據(jù)具有邊界框,并且仍然通過 Wordnet 提取關(guān)系。在本文中,我們考慮了一種從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中自動(dòng)提取視覺知識(shí)的替代方法。從圖像和視頻中自動(dòng)提取知識(shí)的可行性本身將取決于計(jì)算機(jī)視覺的最新技術(shù)。
NEIL
所做貢獻(xiàn):
- 從語義上理解網(wǎng)絡(luò)上的圖像;
- 使用這種語義理解通過新的標(biāo)記實(shí)例和常識(shí)關(guān)系來擴(kuò)充其知識(shí)庫
- 使用這個(gè)數(shù)據(jù)集和這些關(guān)系來構(gòu)建更好的分類器和檢測(cè)器,這反過來又有助于提高語義理解。
具體產(chǎn)出數(shù)據(jù):
- 帶有邊界框的對(duì)象類別的標(biāo)記示例;
- 有標(biāo)簽的場(chǎng)景示例;
- 標(biāo)記的屬性示例;
- 對(duì)象類別的視覺子類;
- 關(guān)于場(chǎng)景、對(duì)象和屬性的常識(shí)關(guān)系,例如“卡羅拉是一種/看起來類似于汽車”、“輪子是汽車的一部分”等。
作者在文中提出三個(gè)概念:
- 宏觀視覺:我們使用術(shù)語“微觀視覺”來指代傳統(tǒng)范式,其中輸入是圖像,輸出是從該圖像中提取的一些信息。 “宏觀視覺”其輸入是大量圖像,輸出是在視覺數(shù)據(jù)中提取重要或有趣的模式(例如,在賽道上經(jīng)常檢測(cè)到汽車)。這些模式幫助我們提取常識(shí)關(guān)系。請(qǐng)注意,關(guān)鍵在于宏觀視覺不需要我們理解語料庫中的每個(gè)圖像并提取所有可能的模式。相反,它依賴于對(duì)一些圖像的理解,并在統(tǒng)計(jì)上結(jié)合這些證據(jù)來構(gòu)建我們的視覺知識(shí)。
- 視覺世界的結(jié)構(gòu):通過檢測(cè)和分類構(gòu)建全局約束,這些類與類之間的全局約束用常識(shí)關(guān)系表示。大多數(shù)先前的工作使用手動(dòng)定義的關(guān)系或在監(jiān)督設(shè)置中學(xué)習(xí)關(guān)系。我們的主要見解是,在一個(gè)聯(lián)合半監(jiān)督學(xué)習(xí)框架中,可以同時(shí)標(biāo)記視覺實(shí)例并提取常識(shí)關(guān)系。
- 語義驅(qū)動(dòng)的知識(shí)獲取:我們根據(jù)語義類別對(duì)視覺數(shù)據(jù)進(jìn)行分組,并開發(fā)語義類別之間的關(guān)系。這使我們能夠利用基于文本的索引工具(例如 Google 圖像搜索)來初始化我們的視覺知識(shí)庫學(xué)習(xí)。
雖然 NEIL 的核心 SSL 算法使用固定的詞匯表,但我們也使用 NELL 本體中的名詞短語來增加我們的詞匯量。
Related Work
構(gòu)建數(shù)據(jù)集最常用的方法之一是使用有動(dòng)力的團(tuán)隊(duì)或人群的力量使用手動(dòng)注釋。為了盡量減少人力,最近的工作也集中在主動(dòng)學(xué)習(xí)上,它選擇信息量最大的標(biāo)簽請(qǐng)求。然而,這兩個(gè)方向都有一個(gè)主要限制:注釋成本高、容易出錯(cuò)、有偏差且無法縮放。
自動(dòng)創(chuàng)建數(shù)據(jù)集的一種常見方法是使用圖像搜索結(jié)果并通過視覺分類器或文本和視覺空間中的某種形式的聯(lián)合聚類,對(duì)它們進(jìn)行重新排序。另一種方法是使用半監(jiān)督框架。大多數(shù)這些自動(dòng)方法的最大問題是少量標(biāo)記的示例或圖像搜索結(jié)果不能為學(xué)習(xí)魯棒的視覺分類器提供足夠的約束。因此,這些方法存在語義漂移。避免語義漂移的一種方法是利用基于我們的視覺數(shù)據(jù)結(jié)構(gòu)的額外約束。
研究人員利用了各種約束,例如基于視覺相似性、語義相似性或多個(gè)特征空間的約束。【這里引用了很多方法】然而,這些約束中的大多數(shù)本質(zhì)上都很弱:例如,視覺相似性僅對(duì)視覺相似圖像應(yīng)該接收相同標(biāo)簽的約束進(jìn)行建模。我們需要一種方法來捕捉我們視覺世界的豐富結(jié)構(gòu),并在半監(jiān)督學(xué)習(xí)中利用這種結(jié)構(gòu)。
通過上下文關(guān)系對(duì)我們視覺世界的豐富結(jié)構(gòu)進(jìn)行建模已經(jīng)取得了巨大的進(jìn)步。其中一些關(guān)系包括:SceneObject [38]、Object-Object [31]、Object-Attribute [12、22、28]、Scene-Attribute [29]。【這里引用了很多方法】所有這些關(guān)系都可以提供一組豐富的約束,可以幫助我們改進(jìn) SSL。然而,我們需要獲得的視覺知識(shí)是如此明顯,以至于沒有人會(huì)花時(shí)間把它寫下來并放到網(wǎng)上。
我們將視覺知識(shí)定義為可用于改進(jìn)視覺任務(wù)(例如圖像理解和對(duì)象/場(chǎng)景識(shí)別)的任何信息。一種形式的視覺知識(shí)是被標(biāo)記為不同類別的示例或標(biāo)記的片段/邊界。標(biāo)記示例幫助我們學(xué)習(xí)分類器或檢測(cè)器并提高圖像理解。
在本文中,視覺知識(shí)被表示為:
- 對(duì)象(例如,汽車、卡羅拉)
- 場(chǎng)景(如胡同、教堂)
- 屬性(例如,藍(lán)色、現(xiàn)代)。請(qǐng)注意,對(duì)于物體,我們學(xué)習(xí)檢測(cè)器,對(duì)于場(chǎng)景,我們構(gòu)建分類器;
- Object-Object(例如,Wheel 是 Car 的一部分)
- Object-Attribute(例如,Sheep is/has White)
- Scene-Object(例如,Car is found in Raceway)
- SceneAttribute(例如,Alley is/has Narrow)。
Technical Approach
整體流程如下圖所示:
步驟為:
- 使用基于樣本的聚類方法,發(fā)現(xiàn)潛在的視覺子類別和這些子類別的邊界框
- 使用聚類和定位結(jié)果為一個(gè)概念訓(xùn)練多個(gè)檢測(cè)器(每個(gè)子類別一個(gè))
Seeding Classifiers via Google Image Search
使用基于文本的圖像檢索系統(tǒng)。
對(duì)于場(chǎng)景和屬性分類器,我們直接使用這些檢索到的圖像作為正數(shù)據(jù)。
數(shù)據(jù)方面的問題,這種方法無法用于訓(xùn)練對(duì)象和屬性檢測(cè)器,主要因?yàn)橐韵滤膫€(gè)原因:
聚類方法上的問題,大多數(shù)當(dāng)前方法通過聚類來處理這些問題。使用 K-means 進(jìn)行聚類有兩個(gè)問題: (1) 高維:我們使用 Color HOG (CHOG)表示,而標(biāo)準(zhǔn)距離度量在這樣的高維中效果不佳; (2) 可擴(kuò)展性:大多數(shù)聚類方法傾向于劃分完整的特征空間,然而互聯(lián)網(wǎng)找到的圖片會(huì)包含很多無關(guān)像素(圖像外沿)。
論文提出的方法:
聚類后??,我們使用集群中四分之三的圖像為每個(gè)集群/子類別訓(xùn)練一個(gè)檢測(cè)器。剩余的四分之一用作校準(zhǔn)的驗(yàn)證集。
Extracting Relationships
一旦我們初始化了對(duì)象檢測(cè)器、屬性檢測(cè)器、屬性分類器和場(chǎng)景分類器,我們就可以使用它們從數(shù)據(jù)中自動(dòng)提取關(guān)系。有以下四種關(guān)系:
- 分體關(guān)系(Partonomy):眼睛是嬰兒的一部分
- 分類關(guān)系(Taxonomy):BMW320是一種車
- 相似關(guān)系(Similarity):天鵝看起來像鵝
- 構(gòu)建co-detection矩陣
- object有某屬性值: “Pizza has Round Shape”, ” Sunflower is Yellow”
- 采用與object-object同等策略(co-detection)
- object在某scene中: “Bus is found in Bus depot” and “Monitor is found in Control room”.
- 對(duì)不同類別的場(chǎng)景圖像,選取隨機(jī)樣本進(jìn)行object detect
- scene具有某attribute: “Ocean is Blue”, “Alleys are Narrow”
- 計(jì)算co-classification矩陣,取最大值
Retraining via Labeling New Instances
這里用了加權(quán)評(píng)分,但是應(yīng)該是向量吧?不然特征值不是都平均化了?需要再研究一下這部分,包括具體怎么生成co-matrix的部分
總結(jié)
以上是生活随笔為你收集整理的NEIL: Extracting Visual Knowledge from Web Data 论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【附源码】计算机毕业设计SSM时事新闻管
- 下一篇: 随笔日记(四)