日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

發布時間:2024/7/5 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理:李磊,浙江大學碩士,研究方向為自然語言處理 鏈接:https://arxiv.org/abs/2106.13884

動機

大規模的自回歸語言模型(如GPT)在預訓練階段學習到了大量的知識,具有很好的學習新任務的能力,給定幾個“任務示例”,模型可以很快的學習到任務形式并回答新問題,但這種能力僅限于文本領域。

Prompt tuning通過添加提示信息,充分挖掘預訓練語言模型蘊含的知識,在few-shot場景下取得了良好的效果。

作者提出了Frozen, 利用Visual Encoder對圖片進行編碼,編碼得到的結果作為prompt與文本一起送入語言模型中,試圖將大規模語言模型和prompt應用于多模態領域。在VQA、OKVQA、miniImageNet等多個數據集的多模態few-shot場景下進行了實驗,結果表明Frozen有效的利用了預訓練語言模型的先驗知識,具有很好的遷移學習能力。

模型結構

圖 1模型結構圖

如圖1所示,模型結構主要分為兩個部分:

1.預訓練自回歸語言模型

在公共數據集C4上預訓練一個基于transformer結構的深度自回歸語言模型,模型具有70億參數。

2.視覺編碼器

基于NF-ResNet-50,主要功能是將原始的圖片映射為連續的序列以便transformer模型進行處理。將NF-Resnet全局池化層后的結果作為最終輸出向量。受Prefix-tuning的啟發,作者將視覺編碼器的輸出作為視覺prefix,與文本一起送入語言模型中。這種方式將靜態的文本prefix轉換成動態的視覺prefix,輸入的圖片不同,產生的視覺prefix也不同,從而更好地“提示”語言模型。

訓練

如圖1所示,訓練時采用image-caption數據集,輸入是(圖片,文本)對,以生成式的方式輸出對圖片的描述文本信息。訓練過程中凍結語言模型,僅訓練視覺編碼器。在k-shot場景下,需要給出幾個示例,因此模型的輸入可能會包含多個(圖片,文本)對,作者使用相對位置編碼使圖文始終在對應文本之前。

實驗

作者以下三個角度進行了實驗:1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding

1.Rapid Task Adaptation

圖 2 Rapid Task Adaptation結果

測試在image-caption上訓練的模型在VQA數據集上的表現并設置了多個對照模型。Frozen scratch表示語言模型是隨機初始化的,Frozen finetuned 表示語言模型使用預訓練權重,Frozen train-blind 控制視覺編碼器的輸入始終是黑色圖像。可以發現Frozen隨著提供示例(n)的增多,效果有所提升。

2.Encyclopedic Knowledge

圖 3 Encyclopedic Knowledge結果

此部分測試了Frozen在需要外部知識的OKVQA數據集上的表現,Frozen同樣在Image-caption上進行訓練。同時比較了語言模型大小對結果的影響(Frozen 400mLM)。

3.Fast Concept Binding

圖 4 Fast Concept Binding輸入示例

如圖4所示,將blicket和dax等無實際意義的詞與某一事物類別進行綁定,同時給出幾個示例,測試模型是否具有概念綁定的能力。

圖 5 概念數等于2時的結果

圖 6 概念數等于5時的結果

作者還進一步測試了概念綁定與外部知識結合的場景下Frozen的效果。

隨著任務難度增加,Frozen的效果也有所下降,但提供的示例數增加的時候,Frozen能從示例中提取到相關知識,指導結果的生成。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。