當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

發布時間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理：李磊，浙江大學碩士，研究方向為自然語言處理鏈接：https://arxiv.org/abs/2106.13884

動機

大規模的自回歸語言模型（如GPT）在預訓練階段學習到了大量的知識，具有很好的學習新任務的能力，給定幾個“任務示例”，模型可以很快的學習到任務形式并回答新問題，但這種能力僅限于文本領域。

Prompt tuning通過添加提示信息，充分挖掘預訓練語言模型蘊含的知識，在few-shot場景下取得了良好的效果。

作者提出了Frozen，利用Visual Encoder對圖片進行編碼，編碼得到的結果作為prompt與文本一起送入語言模型中，試圖將大規模語言模型和prompt應用于多模態領域。在VQA、OKVQA、miniImageNet等多個數據集的多模態few-shot場景下進行了實驗，結果表明Frozen有效的利用了預訓練語言模型的先驗知識，具有很好的遷移學習能力。

模型結構

圖 1模型結構圖

如圖1所示，模型結構主要分為兩個部分：

1.預訓練自回歸語言模型

在公共數據集C4上預訓練一個基于transformer結構的深度自回歸語言模型，模型具有70億參數。

2.視覺編碼器

基于NF-ResNet-50，主要功能是將原始的圖片映射為連續的序列以便transformer模型進行處理。將NF-Resnet全局池化層后的結果作為最終輸出向量。受Prefix-tuning的啟發，作者將視覺編碼器的輸出作為視覺prefix，與文本一起送入語言模型中。這種方式將靜態的文本prefix轉換成動態的視覺prefix，輸入的圖片不同，產生的視覺prefix也不同，從而更好地“提示”語言模型。

訓練

如圖1所示，訓練時采用image-caption數據集，輸入是（圖片，文本）對，以生成式的方式輸出對圖片的描述文本信息。訓練過程中凍結語言模型，僅訓練視覺編碼器。在k-shot場景下，需要給出幾個示例，因此模型的輸入可能會包含多個（圖片，文本）對，作者使用相對位置編碼使圖文始終在對應文本之前。

實驗

作者以下三個角度進行了實驗：1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding

1.Rapid Task Adaptation

圖 2 Rapid Task Adaptation結果

測試在image-caption上訓練的模型在VQA數據集上的表現并設置了多個對照模型。Frozen scratch表示語言模型是隨機初始化的，Frozen finetuned 表示語言模型使用預訓練權重，Frozen train-blind 控制視覺編碼器的輸入始終是黑色圖像。可以發現Frozen隨著提供示例（n）的增多，效果有所提升。

2.Encyclopedic Knowledge

圖 3 Encyclopedic Knowledge結果

此部分測試了Frozen在需要外部知識的OKVQA數據集上的表現，Frozen同樣在Image-caption上進行訓練。同時比較了語言模型大小對結果的影響（Frozen 400mLM）。

3.Fast Concept Binding

圖 4 Fast Concept Binding輸入示例

如圖4所示，將blicket和dax等無實際意義的詞與某一事物類別進行綁定，同時給出幾個示例，測試模型是否具有概念綁定的能力。

圖 5 概念數等于2時的結果

圖 6 概念數等于5時的結果

作者還進一步測試了概念綁定與外部知識結合的場景下Frozen的效果。

隨著任務難度增加，Frozen的效果也有所下降，但提供的示例數增加的時候，Frozen能從示例中提取到相關知識，指導結果的生成。

OpenKG

OpenKG（中文開放知識圖譜）旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包，并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文，進入 OpenKG 網站。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：会议交流 | CNCC2021中国计算机
下一篇：技术实践 | 用 NetworkX +