當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NEIL: Extracting Visual Knowledge from Web Data 论文笔记

發布時間：2024/3/12 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 NEIL: Extracting Visual Knowledge from Web Data 论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文結構

Neil：Never ending image learner
- Motivation
- - NEIL
- Related Work
- Technical Approach
- - Seeding Classifiers via Google Image Search
  - Extracting Relationships
  - Retraining via Labeling New Instances

Neil：Never ending image learner

NEIL: Extracting Visual Knowledge from Web Data
by: Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta
Carnegie Mellon University
www.neil-kb.com
NEIL（Never Ending Image Learner），這是一個每周 7 天、每天 24 小時運行的計算機程序，用于從互聯網數據中自動提取視覺知識。 NEIL 使用半監督學習算法(SSL semi-supervised learning) ，發現常識關系,并標記給定視覺類別的實例。它試圖以最少的人工標注工作量開發世界上最大的可視化結構化知識庫。截至 2013 年 10 月 10 日，NEIL 已在 200 個核心集群（超過 350K CPU 小時）上連續運行 2.5 個月，擁有 1152 個對象類別、1034 個場景類別和 87 個屬性的本體。在此期間，NEIL 發現了 1700 多個關系，并標記了 400K 多個視覺實例。

Motivation

計算機視覺最近的成功主要歸因于視覺知識在場景、對象、動作、屬性的標記實例以及它們之間的上下文關系方面不斷增加的規模。但隨我們如何大規模收集這種結構化的視覺知識？ ImageNet和 Visipedia最近試圖利用人類智能來完成這項任務。然而，在提交時，ImageNet 中只有 7% 的數據具有邊界框，并且仍然通過 Wordnet 提取關系。在本文中，我們考慮了一種從互聯網規模數據中自動提取視覺知識的替代方法。從圖像和視頻中自動提取知識的可行性本身將取決于計算機視覺的最新技術。

NEIL

所做貢獻：

從語義上理解網絡上的圖像；
使用這種語義理解通過新的標記實例和常識關系來擴充其知識庫
使用這個數據集和這些關系來構建更好的分類器和檢測器，這反過來又有助于提高語義理解。

具體產出數據：

帶有邊界框的對象類別的標記示例；
有標簽的場景示例；
標記的屬性示例；
對象類別的視覺子類；
關于場景、對象和屬性的常識關系，例如“卡羅拉是一種/看起來類似于汽車”、“輪子是汽車的一部分”等。

作者在文中提出三個概念：

宏觀視覺：我們使用術語“微觀視覺”來指代傳統范式，其中輸入是圖像，輸出是從該圖像中提取的一些信息。 “宏觀視覺”其輸入是大量圖像，輸出是在視覺數據中提取重要或有趣的模式（例如，在賽道上經常檢測到汽車）。這些模式幫助我們提取常識關系。請注意，關鍵在于宏觀視覺不需要我們理解語料庫中的每個圖像并提取所有可能的模式。相反，它依賴于對一些圖像的理解，并在統計上結合這些證據來構建我們的視覺知識。
視覺世界的結構：通過檢測和分類構建全局約束，這些類與類之間的全局約束用常識關系表示。大多數先前的工作使用手動定義的關系或在監督設置中學習關系。我們的主要見解是，在一個聯合半監督學習框架中，可以同時標記視覺實例并提取常識關系。
語義驅動的知識獲取：我們根據語義類別對視覺數據進行分組，并開發語義類別之間的關系。這使我們能夠利用基于文本的索引工具（例如 Google 圖像搜索）來初始化我們的視覺知識庫學習。

雖然 NEIL 的核心 SSL 算法使用固定的詞匯表，但我們也使用 NELL 本體中的名詞短語來增加我們的詞匯量。

Related Work

構建數據集最常用的方法之一是使用有動力的團隊或人群的力量使用手動注釋。為了盡量減少人力，最近的工作也集中在主動學習上，它選擇信息量最大的標簽請求。然而，這兩個方向都有一個主要限制：注釋成本高、容易出錯、有偏差且無法縮放。
自動創建數據集的一種常見方法是使用圖像搜索結果并通過視覺分類器或文本和視覺空間中的某種形式的聯合聚類，對它們進行重新排序。另一種方法是使用半監督框架。大多數這些自動方法的最大問題是少量標記的示例或圖像搜索結果不能為學習魯棒的視覺分類器提供足夠的約束。因此，這些方法存在語義漂移。避免語義漂移的一種方法是利用基于我們的視覺數據結構的額外約束。
研究人員利用了各種約束，例如基于視覺相似性、語義相似性或多個特征空間的約束?！具@里引用了很多方法】然而，這些約束中的大多數本質上都很弱：例如，視覺相似性僅對視覺相似圖像應該接收相同標簽的約束進行建模。我們需要一種方法來捕捉我們視覺世界的豐富結構，并在半監督學習中利用這種結構。
通過上下文關系對我們視覺世界的豐富結構進行建模已經取得了巨大的進步。其中一些關系包括：SceneObject [38]、Object-Object [31]、Object-Attribute [12、22、28]、Scene-Attribute [29]。【這里引用了很多方法】所有這些關系都可以提供一組豐富的約束，可以幫助我們改進 SSL。然而，我們需要獲得的視覺知識是如此明顯，以至于沒有人會花時間把它寫下來并放到網上。
我們將視覺知識定義為可用于改進視覺任務（例如圖像理解和對象/場景識別）的任何信息。一種形式的視覺知識是被標記為不同類別的示例或標記的片段/邊界。標記示例幫助我們學習分類器或檢測器并提高圖像理解。

在本文中，視覺知識被表示為：

語義類別的標記示例

對象（例如，汽車、卡羅拉）
場景（如胡同、教堂）
屬性（例如，藍色、現代）。請注意，對于物體，我們學習檢測器，對于場景，我們構建分類器；

這些類別之間的關系

Object-Object（例如，Wheel 是 Car 的一部分）
Object-Attribute（例如，Sheep is/has White）
Scene-Object（例如，Car is found in Raceway）
SceneAttribute（例如，Alley is/has Narrow）。

Technical Approach

整體流程如下圖所示：

步驟為：

使用Google Image Search為每個object、scene、attribute類別下載數千張圖片

使用迭代方法以半監督的方式清理標簽并訓練檢測器/分類器

使用基于樣本的聚類方法，發現潛在的視覺子類別和這些子類別的邊界框
使用聚類和定位結果為一個概念訓練多個檢測器（每個子類別一個）

一旦我們有了關系，我們將它們與我們的分類器和檢測器結合使用來標記大量嘈雜的圖像

最有信心標記的圖像被添加到標記數據池中并用于重新訓練模型，并且該過程會自行重復。

Seeding Classifiers via Google Image Search

使用基于文本的圖像檢索系統。
對于場景和屬性分類器，我們直接使用這些檢索到的圖像作為正數據。
數據方面的問題，這種方法無法用于訓練對象和屬性檢測器，主要因為以下四個原因：

異常值：由于基于文本的圖像檢索的不完善，下載的圖像通常有不相關的圖像/異常值；

多義性：在許多情況下，語義類別可能會被重載，單個語義類別可能具有多種意義（例如，蘋果既可以表示公司，也可以表示水果）；

視覺多樣性：由于視點、光照等不同，檢索到的圖像可能具有較高的類內變化；

定位：在許多情況下，檢索到的圖像可能是沒有邊界框的場景，因此需要在訓練檢測器之前對概念進行定位

聚類方法上的問題，大多數當前方法通過聚類來處理這些問題。使用 K-means 進行聚類有兩個問題： (1) 高維：我們使用 Color HOG (CHOG)表示，而標準距離度量在這樣的高維中效果不佳； (2) 可擴展性：大多數聚類方法傾向于劃分完整的特征空間，然而互聯網找到的圖片會包含很多無關像素（圖像外沿）。
論文提出的方法：

利用exemplar-LDA算法創建windows

利用the standard affinity propagation算法檢測得到分類器和原型圖片

聚類后??，我們使用集群中四分之三的圖像為每個集群/子類別訓練一個檢測器。剩余的四分之一用作校準的驗證集。

Extracting Relationships

一旦我們初始化了對象檢測器、屬性檢測器、屬性分類器和場景分類器，我們就可以使用它們從數據中自動提取關系。有以下四種關系：

object-object

分體關系（Partonomy）：眼睛是嬰兒的一部分
分類關系（Taxonomy）：BMW320是一種車
相似關系（Similarity）：天鵝看起來像鵝
構建co-detection矩陣
歸一化
對某對物品的某個特定關系，學習相對位置的平均值/方差，相對縱橫比，相對分數，相對大小
關系主要分為兩個語義類別（分體，分類/相似）

object-attribute

object有某屬性值： “Pizza has Round Shape”, ” Sunflower is Yellow”
采用與object-object同等策略（co-detection）

scene-object

object在某scene中： “Bus is found in Bus depot” and “Monitor is found in Control room”.
對不同類別的場景圖像，選取隨機樣本進行object detect
創建歸一化co-presence矩陣

scene-attribute

scene具有某attribute： “Ocean is Blue”, “Alleys are Narrow”
計算co-classification矩陣，取最大值

Retraining via Labeling New Instances

這里用了加權評分，但是應該是向量吧？不然特征值不是都平均化了？需要再研究一下這部分，包括具體怎么生成co-matrix的部分

總結

以上是生活随笔為你收集整理的NEIL: Extracting Visual Knowledge from Web Data 论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【附源码】计算机毕业设计SSM时事新闻管
下一篇：随笔日记（四）