日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用多模态信息做 prompt,解锁 GPT 新玩法

發(fā)布時間:2024/7/5 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用多模态信息做 prompt,解锁 GPT 新玩法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 子龍
編 | 小軼

自多模態(tài)大火以來,井噴式地出現(xiàn)了許多工作,通過改造預(yù)訓(xùn)練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務(wù)上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務(wù)場景則是以多模態(tài)信息作為條件做 conditional 的 NLG任務(wù)。這種任務(wù)設(shè)置有許多實際的應(yīng)用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標(biāo)題是不夠的。如果能結(jié)合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態(tài)信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進(jìn)一步挖掘的可能。

論文題目:
Multimodal Conditionality for Natural Language Generation

論文鏈接:
https://arxiv.org/pdf/2109.01229.pdf

原理

作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態(tài)的輸入,就相當(dāng)于在生成時多了一個條件,即條件概率為:

其中為多模態(tài)輸入序列。

以文中生成商品文案的運用場景為例:

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態(tài)序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態(tài)序列作為前綴放置到decoder輸入序列的前面,進(jìn)而中解碼過程中分享多模態(tài)信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進(jìn)行編碼。

效果

數(shù)據(jù)集采用FACAD,提供了商品的標(biāo)題和圖片,目標(biāo)是生成產(chǎn)品描述,效果如下:

文中提出的模型在所有指標(biāo)中都取得了最優(yōu)結(jié)果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質(zhì)量具有主觀性,作者也進(jìn)行了人工評分,結(jié)果表明MANTIS依然取得了最優(yōu)結(jié)果。

從生成效果來看,生成的描述成功地結(jié)合了圖片信息,使得描述更加準(zhǔn)確,而非籠統(tǒng)的介紹。

總結(jié)

這篇文章方法十分直觀,但是結(jié)合最近火熱的 Prompt,似乎又有了更多的啟發(fā)。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態(tài)未來能不能成為一種新的prompt呢?作者認(rèn)為他們的模型可以借助各種不同的多模態(tài)條件生成,然而不得不說本文的方法對模態(tài)融合的部分做的馬虎了些。本文只是單純借助解碼器進(jìn)行融合,并沒有在編碼階段就分享跨模態(tài)的信息。

萌屋作者:子龍(Ryan)

本科畢業(yè)于北大計算機系,曾混跡于商湯和MSRA,現(xiàn)在是宅在UCSD(Social Dead)的在讀PhD,主要關(guān)注多模態(tài)中的NLP和data mining,也在探索更多有意思的Topic,原本只是貴公眾號的吃瓜群眾,被各種有意思的推送吸引就上了賊船,希望借此沾沾小屋的靈氣,paper++,早日成為有貓的程序員!

作品推薦:

1.別再搞純文本了!多模文檔理解更被時代需要!

2.Transformer哪家強?Google爸爸辨優(yōu)良!

3.預(yù)訓(xùn)練語言真的是世界模型?

后臺回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復(fù)關(guān)鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結(jié)

以上是生活随笔為你收集整理的用多模态信息做 prompt,解锁 GPT 新玩法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。