日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用冻结语言模型的多模态少样本学习

發(fā)布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 利用冻结语言模型的多模态少样本学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆記整理 |? 李磊,浙江大學碩士,研究方向為自然語言處理



鏈接:https://arxiv.org/abs/2106.13884

動機

大規(guī)模的自回歸語言模型(如GPT)在預訓練階段學習到了大量的知識,具有很好的學習新任務的能力,給定幾個“任務示例”,模型可以很快的學習到任務形式并回答新問題,但這種能力僅限于文本領域。

Prompt tuning通過添加提示信息,充分挖掘預訓練語言模型蘊含的知識,在few-shot場景下取得了良好的效果。

作者提出了Frozen, 利用Visual Encoder對圖片進行編碼,編碼得到的結(jié)果作為prompt與文本一起送入語言模型中,試圖將大規(guī)模語言模型和prompt應用于多模態(tài)領域。在VQA、OKVQA、miniImageNet等多個數(shù)據(jù)集的多模態(tài)few-shot場景下進行了實驗,結(jié)果表明Frozen有效的利用了預訓練語言模型的先驗知識,具有很好的遷移學習能力、

模型結(jié)構(gòu)

圖 1模型結(jié)構(gòu)圖

如圖1所示,模型結(jié)構(gòu)主要分為兩個部分:

1.預訓練自回歸語言模型

在公共數(shù)據(jù)集C4上預訓練一個基于transformer結(jié)構(gòu)的深度自回歸語言模型,模型具有70億參數(shù)。

2.視覺編碼器

基于NF-ResNet-50,主要功能是將原始的圖片映射為連續(xù)的序列以便transformer模型進行處理。將NF-Resnet全局池化層后的結(jié)果作為最終輸出向量。

受Prefix-tuning的啟發(fā),作者將視覺編碼器的輸出作為視覺prefix,與文本一起送入語言模型中。這種方式將靜態(tài)的文本prefix轉(zhuǎn)換成動態(tài)的視覺prefix,輸入的圖片不同,產(chǎn)生的視覺prefix也不同,從而更好地“提示”語言模型。

訓練

如圖1所示,訓練時采用image-caption數(shù)據(jù)集,輸入是(圖片,文本)對,以生成式的方式輸出對圖片的描述文本信息。訓練過程中凍結(jié)語言模型,僅訓練視覺編碼器。在k-shot場景下,需要給出幾個示例,因此模型的輸入可能會包含多個(圖片,文本)對,作者使用相對位置編碼使圖文始終在對應文本之前。

實驗

作者以下三個角度進行了實驗:1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding

1.Rapid Task Adaptation

圖 2 Rapid Task Adaptation結(jié)果

測試在image-caption上訓練的模型在VQA數(shù)據(jù)集上的表現(xiàn)并設置了多個對照模型。Frozen scratch表示語言模型是隨機初始化的,Frozen finetuned 表示語言模型使用預訓練權(quán)重,Frozen train-blind 控制視覺編碼器的輸入始終是黑色圖像。可以發(fā)現(xiàn)Frozen隨著提供示例(n)的增多,效果有所提升。

2.Encyclopedic Knowledge

圖 3 Encyclopedic Knowledge結(jié)果

此部分測試了Frozen在需要外部知識的OKVQA數(shù)據(jù)集上的表現(xiàn),Frozen同樣在Image-caption上進行訓練。同時比較了語言模型大小對結(jié)果的影響(Frozen 400mLM)。

3.Fast Concept Binding

圖 4 Fast Concept Binding輸入示例

如圖4所示,將blicket和dax等無實際意義的詞與某一事物類別進行綁定,同時給出幾個示例,測試模型是否具有概念綁定的能力。

圖 5 概念數(shù)等于2時的結(jié)果

圖 6 概念數(shù)等于5時的結(jié)果

作者還進一步測試了概念綁定與外部知識結(jié)合的場景下Frozen的效果。

隨著任務難度增加,Frozen的效果也有所下降,但提供的示例數(shù)增加的時候,Frozen能從示例中提取到相關知識,指導結(jié)果的生成。

?


?

OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 利用冻结语言模型的多模态少样本学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。