日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NEIL: Extracting Visual Knowledge from Web Data 论文笔记

發(fā)布時間:2024/3/12 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NEIL: Extracting Visual Knowledge from Web Data 论文笔记 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文結(jié)構(gòu)

  • Neil:Never ending image learner
    • Motivation
      • NEIL
    • Related Work
    • Technical Approach
      • Seeding Classifiers via Google Image Search
      • Extracting Relationships
      • Retraining via Labeling New Instances

Neil:Never ending image learner

NEIL: Extracting Visual Knowledge from Web Data
by: Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta
Carnegie Mellon University
www.neil-kb.com
NEIL(Never Ending Image Learner),這是一個每周 7 天、每天 24 小時運行的計算機程序,用于從互聯(lián)網(wǎng)數(shù)據(jù)中自動提取視覺知識。 NEIL 使用半監(jiān)督學習算法(SSL semi-supervised learning) ,發(fā)現(xiàn)常識關(guān)系,并標記給定視覺類別的實例。它試圖以最少的人工標注工作量開發(fā)世界上最大的可視化結(jié)構(gòu)化知識庫。截至 2013 年 10 月 10 日,NEIL 已在 200 個核心集群(超過 350K CPU 小時)上連續(xù)運行 2.5 個月,擁有 1152 個對象類別、1034 個場景類別和 87 個屬性的本體。在此期間,NEIL 發(fā)現(xiàn)了 1700 多個關(guān)系,并標記了 400K 多個視覺實例。

Motivation

計算機視覺最近的成功主要歸因于視覺知識在場景、對象、動作、屬性的標記實例以及它們之間的上下文關(guān)系方面不斷增加的規(guī)模。但隨我們?nèi)绾未笠?guī)模收集這種結(jié)構(gòu)化的視覺知識? ImageNet和 Visipedia最近試圖利用人類智能來完成這項任務(wù)。然而,在提交時,ImageNet 中只有 7% 的數(shù)據(jù)具有邊界框,并且仍然通過 Wordnet 提取關(guān)系。在本文中,我們考慮了一種從互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中自動提取視覺知識的替代方法。從圖像和視頻中自動提取知識的可行性本身將取決于計算機視覺的最新技術(shù)。

NEIL

所做貢獻:

  • 語義上理解網(wǎng)絡(luò)上的圖像;
  • 使用這種語義理解通過新的標記實例和常識關(guān)系來擴充其知識庫
  • 使用這個數(shù)據(jù)集和這些關(guān)系來構(gòu)建更好的分類器和檢測器,這反過來又有助于提高語義理解。

具體產(chǎn)出數(shù)據(jù):

  • 帶有邊界框的對象類別的標記示例;
  • 有標簽的場景示例;
  • 標記的屬性示例;
  • 對象類別的視覺子類;
  • 關(guān)于場景、對象和屬性的常識關(guān)系,例如“卡羅拉是一種/看起來類似于汽車”、“輪子是汽車的一部分”等。

作者在文中提出三個概念:

  • 宏觀視覺:我們使用術(shù)語“微觀視覺”來指代傳統(tǒng)范式,其中輸入是圖像,輸出是從該圖像中提取的一些信息。 “宏觀視覺”其輸入是大量圖像,輸出是在視覺數(shù)據(jù)中提取重要或有趣的模式(例如,在賽道上經(jīng)常檢測到汽車)。這些模式幫助我們提取常識關(guān)系。請注意,關(guān)鍵在于宏觀視覺不需要我們理解語料庫中的每個圖像并提取所有可能的模式。相反,它依賴于對一些圖像的理解,并在統(tǒng)計上結(jié)合這些證據(jù)來構(gòu)建我們的視覺知識。
  • 視覺世界的結(jié)構(gòu):通過檢測和分類構(gòu)建全局約束,這些類與類之間的全局約束用常識關(guān)系表示。大多數(shù)先前的工作使用手動定義的關(guān)系或在監(jiān)督設(shè)置中學習關(guān)系。我們的主要見解是,在一個聯(lián)合半監(jiān)督學習框架中,可以同時標記視覺實例并提取常識關(guān)系。
  • 語義驅(qū)動的知識獲取:我們根據(jù)語義類別對視覺數(shù)據(jù)進行分組,并開發(fā)語義類別之間的關(guān)系。這使我們能夠利用基于文本的索引工具(例如 Google 圖像搜索)來初始化我們的視覺知識庫學習。

雖然 NEIL 的核心 SSL 算法使用固定的詞匯表,但我們也使用 NELL 本體中的名詞短語來增加我們的詞匯量。

Related Work

構(gòu)建數(shù)據(jù)集最常用的方法之一是使用有動力的團隊或人群的力量使用手動注釋。為了盡量減少人力,最近的工作也集中在主動學習上,它選擇信息量最大的標簽請求。然而,這兩個方向都有一個主要限制:注釋成本高、容易出錯、有偏差且無法縮放。
自動創(chuàng)建數(shù)據(jù)集的一種常見方法是使用圖像搜索結(jié)果并通過視覺分類器或文本和視覺空間中的某種形式的聯(lián)合聚類,對它們進行重新排序。另一種方法是使用半監(jiān)督框架。大多數(shù)這些自動方法的最大問題是少量標記的示例或圖像搜索結(jié)果不能為學習魯棒的視覺分類器提供足夠的約束。因此,這些方法存在語義漂移。避免語義漂移的一種方法是利用基于我們的視覺數(shù)據(jù)結(jié)構(gòu)的額外約束。
研究人員利用了各種約束,例如基于視覺相似性、語義相似性或多個特征空間的約束。【這里引用了很多方法】然而,這些約束中的大多數(shù)本質(zhì)上都很弱:例如,視覺相似性僅對視覺相似圖像應(yīng)該接收相同標簽的約束進行建模。我們需要一種方法來捕捉我們視覺世界的豐富結(jié)構(gòu),并在半監(jiān)督學習中利用這種結(jié)構(gòu)。
通過上下文關(guān)系對我們視覺世界的豐富結(jié)構(gòu)進行建模已經(jīng)取得了巨大的進步。其中一些關(guān)系包括:SceneObject [38]、Object-Object [31]、Object-Attribute [12、22、28]、Scene-Attribute [29]。【這里引用了很多方法】所有這些關(guān)系都可以提供一組豐富的約束,可以幫助我們改進 SSL。然而,我們需要獲得的視覺知識是如此明顯,以至于沒有人會花時間把它寫下來并放到網(wǎng)上。
我們將視覺知識定義為可用于改進視覺任務(wù)(例如圖像理解和對象/場景識別)的任何信息。一種形式的視覺知識是被標記為不同類別的示例或標記的片段/邊界。標記示例幫助我們學習分類器或檢測器并提高圖像理解。

在本文中,視覺知識被表示為:

  • 語義類別的標記示例
    • 對象(例如,汽車、卡羅拉)
    • 場景(如胡同、教堂)
    • 屬性(例如,藍色、現(xiàn)代)。請注意,對于物體,我們學習檢測器,對于場景,我們構(gòu)建分類器;
  • 這些類別之間的關(guān)系
    • Object-Object(例如,Wheel 是 Car 的一部分)
    • Object-Attribute(例如,Sheep is/has White)
    • Scene-Object(例如,Car is found in Raceway)
    • SceneAttribute(例如,Alley is/has Narrow)。
  • Technical Approach

    整體流程如下圖所示:

    步驟為:

  • 使用Google Image Search為每個object、scene、attribute類別下載數(shù)千張圖片
  • 使用迭代方法以半監(jiān)督的方式清理標簽并訓練檢測器/分類器
    • 使用基于樣本的聚類方法,發(fā)現(xiàn)潛在的視覺子類別和這些子類別的邊界框
    • 使用聚類和定位結(jié)果為一個概念訓練多個檢測器(每個子類別一個)
  • 一旦我們有了關(guān)系,我們將它們與我們的分類器和檢測器結(jié)合使用來標記大量嘈雜的圖像
  • 最有信心標記的圖像被添加到標記數(shù)據(jù)池中并用于重新訓練模型,并且該過程會自行重復。
  • Seeding Classifiers via Google Image Search

    使用基于文本的圖像檢索系統(tǒng)。
    對于場景和屬性分類器,我們直接使用這些檢索到的圖像作為正數(shù)據(jù)。
    數(shù)據(jù)方面的問題,這種方法無法用于訓練對象和屬性檢測器,主要因為以下四個原因:

  • 異常值:由于基于文本的圖像檢索的不完善,下載的圖像通常有不相關(guān)的圖像/異常值;
  • 多義性:在許多情況下,語義類別可能會被重載,單個語義類別可能具有多種意義(例如,蘋果既可以表示公司,也可以表示水果);
  • 視覺多樣性:由于視點、光照等不同,檢索到的圖像可能具有較高的類內(nèi)變化;
  • 定位:在許多情況下,檢索到的圖像可能是沒有邊界框的場景,因此需要在訓練檢測器之前對概念進行定位
  • 聚類方法上的問題,大多數(shù)當前方法通過聚類來處理這些問題。使用 K-means 進行聚類有兩個問題: (1) 高維:我們使用 Color HOG (CHOG)表示,而標準距離度量在這樣的高維中效果不佳; (2) 可擴展性:大多數(shù)聚類方法傾向于劃分完整的特征空間,然而互聯(lián)網(wǎng)找到的圖片會包含很多無關(guān)像素(圖像外沿)。
    論文提出的方法:

  • 利用exemplar-LDA算法創(chuàng)建windows
  • 利用the standard affinity propagation算法檢測得到分類器和原型圖片
  • 聚類后??,我們使用集群中四分之三的圖像為每個集群/子類別訓練一個檢測器。剩余的四分之一用作校準的驗證集。

    Extracting Relationships

    一旦我們初始化了對象檢測器、屬性檢測器、屬性分類器和場景分類器,我們就可以使用它們從數(shù)據(jù)中自動提取關(guān)系。有以下四種關(guān)系:

  • object-object
    • 分體關(guān)系(Partonomy):眼睛是嬰兒的一部分
    • 分類關(guān)系(Taxonomy):BMW320是一種車
    • 相似關(guān)系(Similarity):天鵝看起來像鵝
    • 構(gòu)建co-detection矩陣
    • 歸一化
    • 對某對物品的某個特定關(guān)系,學習相對位置的平均值/方差, 相對縱橫比,相對分數(shù),相對大小
    • 關(guān)系主要分為兩個語義類別(分體,分類/相似)
  • object-attribute
    • object有某屬性值: “Pizza has Round Shape”, ” Sunflower is Yellow”
    • 采用與object-object同等策略(co-detection)
  • scene-object
    • object在某scene中: “Bus is found in Bus depot” and “Monitor is found in Control room”.
    • 對不同類別的場景圖像,選取隨機樣本進行object detect
    • 創(chuàng)建歸一化co-presence矩陣
  • scene-attribute
    • scene具有某attribute: “Ocean is Blue”, “Alleys are Narrow”
    • 計算co-classification矩陣,取最大值
  • Retraining via Labeling New Instances

    這里用了加權(quán)評分,但是應(yīng)該是向量吧?不然特征值不是都平均化了?需要再研究一下這部分,包括具體怎么生成co-matrix的部分

    總結(jié)

    以上是生活随笔為你收集整理的NEIL: Extracting Visual Knowledge from Web Data 论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。