日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

思而后言:用点赞数据来帮助对话生成模型

發布時間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 思而后言:用点赞数据来帮助对话生成模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

?PaperWeekly 原創 ·?作者|Xiang Gao

單位|Microsoft Research

研究方向|對話系統

?

大數據的精華與糟粕

隨著 GPT-2 等大規模預訓練模型的提出,對話生成模型性能取得了突飛猛進的提高,Microsoft, Google, Facebook 先后提出自家的預訓練對話模型:DialoGPT [1], Meena [2], Blender [3]. 這些模型雖然在實現細節有區別,但訓練的核心都是模仿訓練語料的數據分布。

可是,即使是人類也會產生不同質量的回復:有的回復獲得很多贊,還有的能引發更多的討論,但也有灌水,甚至是不文明和拉仇恨的言論。而如果把糟粕精華一股腦全都丟給模型去訓練,就會產生各種各樣的問題。我們希望對話生成模型能“思而后言”,對回復的質量先做一個評估再返回結果。

預測人類反饋

生成模型的一個經典問題是可能會經常生成 I don’t know 等無趣的回復。一個有效的措施是 MMI 算法 [4]:用 beam search 等方法對給定上文生成多個回復,再用 mutual information 來排序。

背后假設是,如果能從一個回復猜出來它的上文是什么,那么這個回復就很可能是含有有用信息。此外還有通過構建更具有表達力的 latent space 的來增強回復多樣性的工作,比如 CVAE [5] 和 SpaceFusion [6]

MMI 是一個作者很喜歡的數據驅動型打分器思想。但是,我們最終希望優化的真的是 mutual information 嗎?可不可以直接優化預期人類對生成結果的反饋呢?

如果直接進行整個數據集的人工標注,將是一個成本很高的方案,尤其是對于“是否受人喜歡”這樣的衡量每個人標準不一,導致每個樣本都需要多人標注,提高成本。

不過,我們可以利用一些已有的人類反饋數據,比如點贊和回復數。很多社交平臺的評論都有如圖 1 所示樹狀結構,我們可以借此定義 Updown(點贊數),Depth(討論深度), 和 Width(討論廣度)三種人類反饋的衡量。有了這些 label,我們就可以著手構建訓練集了。

▲?圖1:我們可以利用社交網絡中用戶點贊和發帖的樹狀結構來定義human feedback metrics來構建訓練數據集

?

Reddit Feedback數據集

可是,給定上文和回復,預測此回復的點贊或評論數目是很困難的一個任務,因為這里面牽扯了太多文本外的其他因素(平臺,時機,用戶自身流量等)。我們于是把任務從預測變為分類:給定同一個上文的兩個回復,要求打分器判斷哪一個回復是獲得人類反饋更多的那一個。

此外,還會有一些混雜因素,比如那些發帖早的往往會得到更多的贊或回復。所以我們進一步限定在只比較發帖時間相隔不超過一個小時的回復。

另外,考慮到我們最終希望模型應用到生成模型上,但訓練數據是人類生成而非機器生成,所以我們另外考慮了兩個子任務:1)區別人類回復和隨機回復,2)區別人類生成和機器生成。

在這樣的限定下,我們用 2011 和 2012 年數據構建了總共 1.3 億條數據,包含 5 個訓練任務,如表 1 所示。

▲ 表1:各任務的訓練數據集統計

?

DialogRPT模型

我們用 DialoGPT 初始化,在 Reddit Feeback 數據集我們分別訓練了五個 GPT-2 架構的模型,稱為 DialogRPT (Dialog Ranking Pretrained Transformers)。

表 2 是一個對人類反饋的預測的例子,對于給定上文“I love NLP! ” 我們比較多個回復。可以看到“Me too! ” 這樣相對而言普通的回復會得到比較低的分數,而“Can you tell me how it works? ”這樣的回復可能會引發不會在一兩句結束的深度討論,于是得到了最高的 Depth 分數。

“Can anyone recommend a nice review paper? ”這樣的回復可能有很多不同的答案,所以其 Width 分數最高。“Here’s a free textbook(URL)in case anyone needs it”這個回復提供了一個可能大家喜愛的資源,于是被預測會得到很多點贊,其 Updown 分數最高。

▲ 表2:DialogRPT 預訓練模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的預測

?

我們進一步比較了 DialogRPT 和 dialog perplexity (ppl.)和 reverse dialog perplexity 這兩個 MMI 的組件。從準確率上來看,MMI 對這些任務沒有很好的預測能力,即人類的反饋似乎并不是完全取決于回復和上文的 mutual information. 與之相比,DialogRPT 能使得準確率提高不少。

▲ 表3:不同模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的預測準確度( >50% 為具有預測能力)

我們還額外進行了 DialogRPT 的 Zero-shot 測試,看他是否能在 Reddit 以外的數據集具有預測能力。我們考查了區別人類回復和隨機回復這個任務,如表 4 所示,DialogRPT 在四個數據集上都表現出來了很強的預測能力。

▲ 表4:不同模型對點贊(Updown),討論深度(Depth),討論廣度(Width)的 hits@k 預測準確度

總結

在大規模計算和預訓練模型時代,也許很多任務都能通過跟多的數據和 GPU 來提高結果。這也許一定程度上解放了我們對于一些技術細節的糾結,留給了我們更多時間去思考任務級別和系統級別的創新。

對話系統除了生成類人的回復外,也許下一個篇章就是變得更加受人喜愛和需要。“思而后言”,對回復進行更好的評估和決策,也許是一個第一步。

我們在論文《Dialogue Response Ranking Training with Large-Scale Human Feedback Data》里詳細介紹了 Reddit Feedback 數據集和 DialogRPT 模型,被 EMNLP 2020 接受。模型,源代碼和數據已開源,見下面鏈接。

源代碼,數據和預訓練模型:?

https://github.com/golsun/DialogRPT

論文鏈接:

https://arxiv.org/abs/2009.06978

?

參考文獻

[1] Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. 2019b. Dialogpt: Large-scale generative pre-training for conversational response generation. Proc. of ACL.

[2] Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al. 2020. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977.

[3] Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M Smith, et al. 2020. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637.

[4] Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. 2016. A diversity-promoting objective function for neural conversation models. In NAACL, pages 110–119.

[5] Tiancheng Zhao, Ran Zhao, and Maxine Eskenazi. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In ACL, pages 654–664.

[6] Xiang Gao, Sungjin Lee, Yizhe Zhang, Chris Brockett, Michel Galley, Jianfeng Gao, and Bill Dolan. 2019a. Jointly optimizing diversity and relevance in neural response generation. NAACL-HLT 2019.

更多閱讀

?

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的思而后言:用点赞数据来帮助对话生成模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。