日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

学习视觉和语言的多粒度对齐?字节提出新多模态预训练方法 X-VLM:代码已开源!...

發(fā)布時(shí)間:2024/10/8 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习视觉和语言的多粒度对齐?字节提出新多模态预训练方法 X-VLM:代码已开源!... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

寫(xiě)在前面

?

視覺(jué)語(yǔ)言預(yù)訓(xùn)練提高了許多視覺(jué)語(yǔ)言任務(wù)的性能。但是,現(xiàn)有的多數(shù)預(yù)訓(xùn)練方法依賴目標(biāo)檢測(cè)器(object detectors)提取基于物體的視覺(jué)特征,以此學(xué)習(xí)細(xì)粒度的視覺(jué)和語(yǔ)言對(duì)齊,例如物體(object)級(jí)別。然而,這種方法存在識(shí)別視覺(jué)概念有限、圖像編碼上下文信息丟失和計(jì)算效率低下的問(wèn)題。

在本文中,字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室提出了 X-VLM,以統(tǒng)一的方法學(xué)習(xí)多粒度的視覺(jué)和語(yǔ)言對(duì)齊,不依賴目標(biāo)檢測(cè)方法且不局限于學(xué)習(xí)圖片級(jí)別或物體級(jí)別的對(duì)齊。該方法在廣泛的視覺(jué)語(yǔ)言任務(wù)上獲得了最先進(jìn)的結(jié)果,例如:圖像文本檢索 (image-text retrieval)、視覺(jué)問(wèn)答(VQA)、視覺(jué)推理(NLVR)、視覺(jué)定位 (visual grounding)、圖片描述生成(image captioning)。

論文標(biāo)題:

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

論文鏈接:

https://arxiv.org/abs/2111.08276

代碼鏈接:

https://github.com/zengyan-97/X-VLM


研究背景

▲ 圖1:現(xiàn)有兩類的方法(a, b)和X-VLM(c)

現(xiàn)有的多模態(tài)預(yù)訓(xùn)練模型大致分為兩類:1)依賴目標(biāo)檢測(cè)器提取基于物體的視覺(jué)特征,以此學(xué)習(xí)細(xì)粒度的視覺(jué)和語(yǔ)言對(duì)齊,如圖 1 中(a)。這些方法要么直接利用預(yù)先訓(xùn)練的目標(biāo)檢測(cè)器,要么將目標(biāo)檢測(cè)過(guò)程合并到多模態(tài)預(yù)訓(xùn)練中;2)用 CNN 或者視覺(jué) Transformer 編碼整張圖片,直接學(xué)習(xí)文本和圖片特征之間的粗粒度對(duì)齊,如圖 1(b)。

這兩種方法都存在問(wèn)題。首先,基于目標(biāo)檢測(cè)的方法會(huì)識(shí)別圖片中所有可能的物體,其中不乏一些與配對(duì)文本無(wú)關(guān)的。此外,這種方法所提取的基于物體的視覺(jué)特征可能會(huì)丟失物體之間的信息(可以認(rèn)為是一種上下文信息)。而且,我們也很難預(yù)先定義需要識(shí)別的物體種類。而第二種方法則較難學(xué)習(xí)到細(xì)粒度的視覺(jué)和語(yǔ)言對(duì)齊,例如:物體級(jí)別的對(duì)齊。這種細(xì)粒度的對(duì)齊關(guān)系被之前的工作證實(shí)對(duì)于視覺(jué)推理(visual reasoning)和視覺(jué)定位(visual grounding)任務(wù)很有幫助。

實(shí)際上,對(duì)于多模態(tài)預(yù)訓(xùn)練,有以下公開(kāi)數(shù)據(jù)以供模型訓(xùn)練:1)圖片和圖片標(biāo)題;2)區(qū)域標(biāo)注,例如:圖 1 中的文本“man crossing the street”關(guān)聯(lián)到了圖片中的某個(gè)具體區(qū)域。然而,之前的工作卻粗略地將區(qū)域標(biāo)注與整張圖片對(duì)齊;3)物體標(biāo)簽,例如“backpack”,這些標(biāo)簽被之前的工作用來(lái)訓(xùn)練目標(biāo)檢測(cè)器。

與之前的做法不同,本文中作者提出 X-VLM,以統(tǒng)一的方式利用上述數(shù)據(jù)學(xué)習(xí)多粒度的視覺(jué)和語(yǔ)言對(duì)齊,而不依賴目標(biāo)檢測(cè)方法且不局限于學(xué)習(xí)圖像級(jí)別或物體級(jí)別的對(duì)齊。作者提出學(xué)習(xí)多粒度視覺(jué)和語(yǔ)言對(duì)齊的關(guān)鍵在于,如圖 1(c)所示:1)給出文本,定位圖片中的視覺(jué)概念,以邊界框的回歸損失和交并比損失優(yōu)化;2)同時(shí)拉齊文本和對(duì)應(yīng)的視覺(jué)概念,通過(guò)常用的對(duì)比學(xué)習(xí)損失,匹配損失,MLM 損失優(yōu)化。實(shí)驗(yàn)證明,X-VLM 能在下游任務(wù)中有效利用預(yù)訓(xùn)練時(shí)學(xué)到的多粒度視覺(jué)和語(yǔ)言對(duì)齊,在多種視覺(jué)語(yǔ)言任務(wù)上獲得非常優(yōu)秀的表現(xiàn)。



方法

▲ 圖2:X-VLM框架

X-VLM 由一個(gè)圖像編碼器,一個(gè)文本編碼器,一個(gè)跨模態(tài)編碼器組成。

圖 2 左側(cè)給出了視覺(jué)概念 V(可以是物體/區(qū)域/圖片)的編碼過(guò)程:該圖像編碼器采用視覺(jué) Transformer,將輸入圖片分成 patches 編碼。然后,給出任意一個(gè)邊界框,簡(jiǎn)單地通過(guò)取框中所有 patch 表示的平均值獲得區(qū)域的全局表示。

再將該全局表示和原本框中所有的 patch 表示按照原本順序整理成序列,作為該邊界框所對(duì)應(yīng)的視覺(jué)概念的表示。通過(guò)這樣的方式獲得圖片本身()和圖片中視覺(jué)概念(,,,)的編碼。與視覺(jué)概念對(duì)應(yīng)的文本,則通過(guò)文本編碼器一一編碼獲得,例如圖片標(biāo)題、區(qū)域描述、物體標(biāo)簽。

X-VLM 采用常見(jiàn)的模型結(jié)構(gòu),其不同之處在于預(yù)訓(xùn)練的方法。作者通過(guò)以下兩類損失進(jìn)行優(yōu)化:

第一,給出文本,例如:(text)、(text1)、(text2)、(text3),預(yù)測(cè)圖片 中的對(duì)應(yīng)視覺(jué)概念的邊界框:

是跨模態(tài)編碼器在 [CLS] 位置的輸出向量。Sigmoid 函數(shù)是為了標(biāo)準(zhǔn)化。Ground-truth 對(duì)應(yīng)了(),依次是標(biāo)準(zhǔn)化后的的中心橫坐標(biāo)、中心縱坐標(biāo)、寬、高。最后,該損失是邊界框的 GIoU 損失和 L1 損失之和。作者認(rèn)為在同一張圖片中,給不同文字,要求模型預(yù)測(cè)出對(duì)應(yīng)的視覺(jué)概念,能使模型更有效地學(xué)習(xí)到多粒度的視覺(jué)語(yǔ)言對(duì)齊。該損失也是首次被使用在多模態(tài)預(yù)訓(xùn)練中。

第二,同時(shí)優(yōu)化模型去拉齊文本和對(duì)應(yīng)的視覺(jué)概念,包括了物體/區(qū)域/圖片與文本的對(duì)齊。作者使用多模態(tài)預(yù)訓(xùn)練中常見(jiàn)的三個(gè)損失優(yōu)化,依次是:

1)對(duì)比學(xué)習(xí)損失:

, 是 ground-truth 相似度,對(duì)角線為 1,其余為 0 。, 是模型基于文字編碼器輸出和圖像編碼器輸出所計(jì)算的相似度。

2)匹配損失:

是基于跨模態(tài)編碼器計(jì)算,預(yù)測(cè)所給()對(duì)是否匹配(換句話說(shuō),0/1分類)。對(duì)于每對(duì)正例,作者采樣一對(duì)負(fù)例。

3)Masked Language Modeling 損失:

中的一些詞已經(jīng)被隨機(jī)替換成了 [MASK], 是跨模態(tài)編碼器在詞 位置的輸出向量所計(jì)算的詞表概率分布。


實(shí)驗(yàn)

作者使用多模態(tài)預(yù)訓(xùn)練中常見(jiàn)的 4M 圖片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),同時(shí)也在一個(gè) 16M 數(shù)據(jù)集下驗(yàn)證了模型效果,如下表所示:

▲ 表1:兩種預(yù)訓(xùn)練數(shù)據(jù)集

其中,標(biāo)注(# Ann)是區(qū)域標(biāo)注和物體標(biāo)簽的總稱??梢钥闯?#xff0c;有些數(shù)據(jù)集沒(méi)有圖片標(biāo)題(Captions),例如 Visual Genome,有些數(shù)據(jù)集沒(méi)有圖片標(biāo)注,例如 CC-3M/12M。

▲ 表2:在圖像文本檢索任務(wù)上的實(shí)驗(yàn)結(jié)果

表 2 展示了在圖像文本檢索任務(wù)(MSCOCO 和 Flickr30K)上的表現(xiàn)??梢钥闯鲈?4M 圖片數(shù)據(jù)集下訓(xùn)練的 X-VLM 就已經(jīng)超過(guò)了之前的方法。? ?

▲ 表3:在多種下游視覺(jué)語(yǔ)言任務(wù)上的實(shí)驗(yàn)結(jié)果

表 3 展示了在視覺(jué)推理(VQA2.0 和 NLVR2)、視覺(jué)定位(RefCOCO+)、圖片描述生成(COCO Captio)上的模型表現(xiàn)。結(jié)合表 2 和表 3,可以看出,相比之前的方法,X-VLM 支持更多種類的下游任務(wù),并且在這些常見(jiàn)的視覺(jué)語(yǔ)言任務(wù)上都取得了最先進(jìn)的表現(xiàn)。


總結(jié)

在本文中,作者提出了 X-VLM,以統(tǒng)一的方法學(xué)習(xí)多粒度的視覺(jué)和語(yǔ)言對(duì)齊,不依賴目標(biāo)檢測(cè)方法且不局限于學(xué)習(xí)圖片級(jí)別或物體級(jí)別的對(duì)齊。這種預(yù)訓(xùn)練方法適用于廣泛的下游任務(wù),除了視覺(jué)推理,還同時(shí)在圖像文本檢索、視覺(jué)定位、圖片描述生成任務(wù)上取得了最先進(jìn)的表現(xiàn)。全部代碼均已開(kāi)源,可掃下方二維碼體驗(yàn)。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的学习视觉和语言的多粒度对齐?字节提出新多模态预训练方法 X-VLM:代码已开源!...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。