當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

格“物”致知：多模态预训练再次入门

發布時間：2024/10/8 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了格“物”致知：多模态预训练再次入门小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創?·?作者｜Chunyuan Li

單位｜Microsoft Research?Researcher

研究方向｜深度生成模型

本文簡要闡述了基于視覺和語言信息的多模態學習的緣由和發展現狀，并介紹一種多模態預訓練的方法 Oscar 來引導大家入門了解這個領域。為什么說是再次入門呢？因為前段時間在已經涌現出不少多模態預訓練的方法，而我們展現一種另外一種打開多模態數據的方式，希望離多模態預訓練的正確打開方式更近一些。

為什么關注多模態學習？

我們人類往往是通過多種渠道感知外部世界的，例如，用眼睛看到的圖像，或者用耳朵聽到的聲音。盡管任何單個渠道可能都不完整或嘈雜，但是人類可以自然地對齊并融合從多個渠道收集的信息，以提取了解世界所需的關鍵概念。

人工智能的核心愿望之一是開發一種技術，以賦能計算機，使其具有從多模態（或多通道）數據中有效學習的能力。具體的一些功能，舉例來說：

Visual Question Answering: 基于圖片的語言問答
Image-Text Retrieval: 以文本為輸入來搜索出與最語義上相似的圖像
Image Captioning: 使用自然語言描述圖像的內容
其它很多同時涉及到語言和圖片的任務

從實用的角度講，現代的計算機系統與人交互的信息通常也是模態的，包括語言，圖片，語音等等，比如微信里的對話方式，購物網站上的商品展示等等。多模態往往會比單一模態提供更加豐富的信息，達到更好的用戶體驗。

舉個例子，在疫情狀態下遠程工作的我們，往往通過進行語音溝通，但有時候搭配著屏幕共享（視覺信息）是不是能更加愉快地聊天呢？這就是多模態學習的一種體現。

多模態學習初入門

最近，視覺和語言預訓練（Vision-Language Pretraining, 簡稱 VLP）在解決多模態學習方面已顯示出巨大的進步。這類方法最有代表性地通常包括如下兩步：

預訓練：是以自監督的方式在海量“圖像-文本”數據（Image-Text Pair，或者叫做“圖文對”）上訓練大型的基于 Transformer 的模型（例如根據上下文預測被掩蓋掉的語言或者圖像的元素）

微調：可以對預訓練模型的交叉模式表示進行微調，以適應各種下游視覺和語言任務

VilBERT [1] , LXMERT [2] , ?VL-BERT [3] , Unicoder-VL [4] , UNITER [5] , ?VLP [6] , 12-in-1 [7] , ...（閑話：排名不分先后，如有漏缺，請聯系作者改動）

但是，現有的 VLP 方法只是將圖像區域特征和文本特征連接起來作為模型的輸入以進行預訓練，并不為模型提供任何線索，希望模型能利用 Transformer 的自我注意機制，使用蠻力來學習圖像文本語義對齊方式。

多模態學習再入門：格“物”以致知

在本文中，我們介紹一種新的多模態預訓練方法 Oscar（Object-Semantics Aligned Pre-training）：把物體用作視覺和語言語義層面上的定位點?(Anchor Point，或者成為錨點)，以簡化圖像和文本之間的語義對齊的學習任務。

利用這一發現，我們開發了一個新穎的 VLP 框架，該方法可以在六項標準的視覺和語言任務上創造出最新的性能。

這樣的方式，可以總結為自儒學經典《大學》里的“格物以致知” [8] ：人接觸、感覺、認識事物（物體），然后產生并獲得知識。不過，我們這里的“物”，專指的是物體標簽（Object Tags），而非泛指世上萬事萬物。

查閱有關該技術的細節，請查看【論文】[9] 和【代碼】[10] 。

以物體為定位點

盡管觀察到的數據在不同的通道（模態）之間變化，但我們假設重要因素傾向于在多個通道之間共享（例如，“狗”可以通過視覺和言語描述），在通道上捕獲通道不變（或模態不變）因素。語義級別。

在視覺和語言任務中，圖像中的顯著的物體通常可以由先進的物體檢測方法檢測到，并且此類物體會經常在配對文本中提及。例如，在 MS COCO [11] 數據集上，圖像及其配對文本共享至少1個，2 個或 3 個物體的百分比分別為 49.7％，22.2％和 12.9％。

▲ 圖1：該圖顯示了Oscar通過它在語義空間中表示圖文對的過程。（a）輸入圖像-文本對的示例。（b）物體標簽用作定位點，以將圖像區域與預訓練語言模型的詞嵌入對齊。（c）預訓練的語言語義空間比圖像區域特征更具區分性。

圖1a 中顯示了一個示例圖文對。通過使用諸如 Faster R-CNN [12]?之類的預訓練物體檢測器（object detector [13]），可以將圖像表示為一組視覺區域特征，每個視覺區域特征都與一個物體標簽關聯。

因此，可以使用諸如 BERT 的預訓練語言模型將句子表示為一系列單詞嵌入。重要的是，在 Oscar 中，我們使用來自預先訓練的 BERT 的對應詞嵌入來構造物體標簽的表示。

如圖 1b 所示，它在共享空間中顯式地將圖像和句子耦合在一起，從而使物體扮演定位點的角色，以對齊視覺和語言的語義。經過大量的純文本預訓練之后，BERT [14] 的單詞嵌入空間在語義上得到了很好的構造-這將進一步為共享空間提供良好的初始化。

在此示例中，由于重疊區域，“狗”和“沙發”在視覺特征空間中相似，但在單詞嵌入空間中卻很獨特，如圖 1c 所示。

Oscar訓練方式

▲ 圖2：Oscar的輸入數據表達。我們將（圖像-文本）對表示為三元組（橙色的單詞序列，藍色的物體標簽，綠色的圖片區域特征）。Oscar提出了用物體（在這個例子里是“狗”或“沙發”）來對齊跨域語義；如果刪除物體，Oscar退化為以前的預訓練方法。輸入三元組可以從兩個角度理解：模態視角和字典視角。

通過將對象標簽作為新組件引入，Oscar 在兩個方面與現有的 VLP 不同：

輸入表示。如下圖 2 所示，我們將每個（圖像-文本）樣本定義為一個三元組（單詞序列，物體標簽，區域特征）。
預訓練目標。根據三元組中三個項目的分組方式，我們從兩個不同的角度查看輸入：模態視角和字典視角。每一種視角都允許我們設計一個新穎的預訓練目標：
1）字典視圖的掩蓋碼恢復損失，它衡量模型根據上下文恢復丟失元素（單詞或對象標簽）的能力；
2）模態視角的對比損失，它衡量模型區分原始三元組及其“污染”版本（即原始物體標簽被隨機采樣的標簽替換）的能力。

我們的 Oscar 模型在包含 650 萬對數據的大規模圖像文本數據集上進行了預訓練。Oscar 針對各種視覺和語言理解和生成任務進行了微調和評估，包括

Visual Question Answering (VQA) [15]
Graph Question Answering (GQA) [16]
Natural Language Visual Reasoning for Real (NLVR2) [17]
Image-Text Retrieval [18]
Text-Image Retrieval [19]
Image Captioning on COCO dataset [20]
Novel Object Captioning (NoCaps) [21]

整體?預訓練+微調?的流程如圖 3 所示：

▲ 圖3：Oscar以三元組作為輸入，以兩個損失函數為目標進行預訓練（在單詞和標簽上掩蓋恢復損失，以及在標簽和其他標簽之間的對比損失），然后對其進行微調以實現五個理解和兩個生成任務。

實驗效果：六個任務上的最優結果

為了考慮參數的利用效率，我們在下表 1 中比較了不同大小的模型。Oscar 在六項任務上均達到了最新水平。在大多數任務上，我們的基本款模型（base model）要優于以前的大型模型（large model），通常情況下會大大提高。

它表明 Oscar 具有很高的參數利用效率，我們認為部分原因是物體的使用大大簡化了圖像和文本之間語義對齊的學習。

在這里，VLP 基線方法是從 UNITER [5] , VilBERT [1] , LXMERT [2] , VLP [6] , VL-BERT [3] , Unicoder-VL [4] , 和 12-in-1 [7] 收集的。請注意，Oscar 接受了 650 萬對的預訓練，這比 UNITER 的 918 萬對和 IXME 的 960 萬對都少，這也說明了 Oscar 的數據利用率很高。

▲ 表1： Oscar在六項主流的視覺和語言任務上均取得了最佳表現。下標為S，B和L的SoTA（最新技術水平）表示通過小型，基礎和大型模型（尺寸相對于BERT大小而測量）可獲得的最佳性能。藍色表示任務的最佳結果，灰色背景的行表示由Oscar產生的結果。

改進的圖像文本對齊效果

我們使用 t-SNE 可視化工具，把 COCO 測試集的圖像-文本對的語義特征空間畫在了二維平面上。對于每個圖像區域和單詞序列，我們將其傳遞通過模型，并將其最后一層輸出用作特征。比較帶有和不帶有物體標簽的預訓練模型。

圖 4 中的結果揭示了一些有趣的發現。第一個發現是關于同一個物體的兩種不同模態的：借助對象標簽，可以大大減少兩個模態之間同一對象的距離。

例如，Oscar 中 Person 的圖片和文本表示比基線方法中的視覺表示和文本表示更接近，這個在圖 4 中用紅色曲線表示。

第二個發現是不同物體間的：添加物體標簽后，具有相關語義的對象類越來越接近（但仍可區分）而這在基線方法中有些混合，例如圖 4 中用灰色曲線表示的動物（zebra, elephant, sheep等）。

這證明了物體標簽在學習對齊語義中的重要性：物體被用做定位點鏈接和規范化了跨模式的特征學習。

▲ 圖4：使用t-SNE進行2D可視化。來自同一對象類的點共享相同的顏色。Oscar（左）改進了不帶物體標簽的基線上的跨域對齊（右）。紅色和灰色曲線分別覆蓋具有相同和相關語義的物體。

展望未來

Oscar 展示了在對齊圖像和語言時使用物體作為定位點的強大功能。未來工作的有趣方向包括將 Oscar 推廣到包括語音或多語言能力等更多形式的方法，以及使用物體作為自然橋梁從圖像中提取知識以改善自然語言任務。真正做到格物以致知。

致謝?:?

This research was conducted by?Xiujun Li,?Xi Yin,?Chunyuan Li,?Pengchuan Zhang,?Xiaowei Hu,?Lei Zhang,?Lijuan Wang,?Houdong Hu,?Li Dong,?Furu Wei,?Yejin Choi, and?Jianfeng Gao. The implementation in our experiments depends on open source GitHub repositories; we acknowledge all the authors who made their code public, which tremendously accelerates our project progress.

參考鏈接

[1] https://arxiv.org/abs/1908.02265

[2] https://github.com/airsplay/lxmert

[3]?https:///arxiv.org/abs/1908.08530

[4] https://arxiv.org/abs/1908.06066

[5] https://github.com/ChenRocks/UNITER

[6] https://arxiv.org/abs/1909.11059

[7] https://arxiv.org/abs/1912.02315

[8] https://www.zhihu.com/question/20594905

[9] https://arxiv.org/abs/2004.06165

[10]?https://github.com/microsoft/Oscar

[11] http://cocodataset.org/#home

[12]?https://arxiv.org/abs/1506.01497

[13]?https://en.wikipedia.org/wiki/Object_detection

[14] https://arxiv.org/abs/1810.04805

[15]?https://visualqa.org/

[16]?https://cs.stanford.edu/people/dorarad/gqa/index.html

[17]?https://lil.nlp.cornell.edu/nlvr/

[18] https://github.com/kuanghuei/SCAN

[19]?https://github.com/kuanghuei/SCAN

[20] http://cocodataset.org/#captions-2015

[21]?https://nocaps.org/

點擊以下標題查看更多往期內容：?

大規模計算時代：深度生成模型何去何從
小樣本分割最新綜述
NLP中的Mask全解
對比學習（Contrastive Learning）相關進展梳理
將“softmax+交叉熵”推廣到多標簽分類問題
針對復雜問題的知識圖譜問答最新進展

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的格“物”致知：多模态预训练再次入门的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二手车商打死也不收的车将退出大陆市场
下一篇：消息称长安汽车第四代 CS75 PLUS