當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

思而后言：用点赞数据来帮助对话生成模型

發布時間：2024/10/8 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了思而后言：用点赞数据来帮助对话生成模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜Xiang Gao

單位｜Microsoft Research

研究方向｜對話系統

大數據的精華與糟粕

隨著 GPT-2 等大規模預訓練模型的提出，對話生成模型性能取得了突飛猛進的提高，Microsoft, Google, Facebook 先后提出自家的預訓練對話模型：DialoGPT [1], Meena [2], Blender [3]. 這些模型雖然在實現細節有區別，但訓練的核心都是模仿訓練語料的數據分布。

可是，即使是人類也會產生不同質量的回復：有的回復獲得很多贊，還有的能引發更多的討論，但也有灌水，甚至是不文明和拉仇恨的言論。而如果把糟粕精華一股腦全都丟給模型去訓練，就會產生各種各樣的問題。我們希望對話生成模型能“思而后言”，對回復的質量先做一個評估再返回結果。

預測人類反饋

生成模型的一個經典問題是可能會經常生成 I don’t know 等無趣的回復。一個有效的措施是 MMI 算法 [4]：用 beam search 等方法對給定上文生成多個回復，再用 mutual information 來排序。

背后假設是，如果能從一個回復猜出來它的上文是什么，那么這個回復就很可能是含有有用信息。此外還有通過構建更具有表達力的 latent space 的來增強回復多樣性的工作，比如 CVAE [5] 和 SpaceFusion [6]

MMI 是一個作者很喜歡的數據驅動型打分器思想。但是，我們最終希望優化的真的是 mutual information 嗎？可不可以直接優化預期人類對生成結果的反饋呢？

如果直接進行整個數據集的人工標注，將是一個成本很高的方案，尤其是對于“是否受人喜歡”這樣的衡量每個人標準不一，導致每個樣本都需要多人標注，提高成本。

不過，我們可以利用一些已有的人類反饋數據，比如點贊和回復數。很多社交平臺的評論都有如圖 1 所示樹狀結構，我們可以借此定義 Updown（點贊數），Depth（討論深度），和 Width（討論廣度）三種人類反饋的衡量。有了這些 label，我們就可以著手構建訓練集了。

▲?圖1：我們可以利用社交網絡中用戶點贊和發帖的樹狀結構來定義human feedback metrics來構建訓練數據集

Reddit Feedback數據集

可是，給定上文和回復，預測此回復的點贊或評論數目是很困難的一個任務，因為這里面牽扯了太多文本外的其他因素（平臺，時機，用戶自身流量等）。我們于是把任務從預測變為分類：給定同一個上文的兩個回復，要求打分器判斷哪一個回復是獲得人類反饋更多的那一個。

此外，還會有一些混雜因素，比如那些發帖早的往往會得到更多的贊或回復。所以我們進一步限定在只比較發帖時間相隔不超過一個小時的回復。

另外，考慮到我們最終希望模型應用到生成模型上，但訓練數據是人類生成而非機器生成，所以我們另外考慮了兩個子任務：1）區別人類回復和隨機回復，2）區別人類生成和機器生成。

在這樣的限定下，我們用 2011 和 2012 年數據構建了總共 1.3 億條數據，包含 5 個訓練任務，如表 1 所示。

▲ 表1：各任務的訓練數據集統計

DialogRPT模型

我們用 DialoGPT 初始化，在 Reddit Feeback 數據集我們分別訓練了五個 GPT-2 架構的模型，稱為 DialogRPT （Dialog Ranking Pretrained Transformers）。

表 2 是一個對人類反饋的預測的例子，對于給定上文“I love NLP! ” 我們比較多個回復。可以看到“Me too! ” 這樣相對而言普通的回復會得到比較低的分數，而“Can you tell me how it works? ”這樣的回復可能會引發不會在一兩句結束的深度討論，于是得到了最高的 Depth 分數。

“Can anyone recommend a nice review paper? ”這樣的回復可能有很多不同的答案，所以其 Width 分數最高。“Here’s a free textbook（URL）in case anyone needs it”這個回復提供了一個可能大家喜愛的資源，于是被預測會得到很多點贊，其 Updown 分數最高。

▲ 表2：DialogRPT 預訓練模型對點贊（Updown），討論深度（Depth），討論廣度（Width）的預測

我們進一步比較了 DialogRPT 和 dialog perplexity （ppl.）和 reverse dialog perplexity 這兩個 MMI 的組件。從準確率上來看，MMI 對這些任務沒有很好的預測能力，即人類的反饋似乎并不是完全取決于回復和上文的 mutual information. 與之相比，DialogRPT 能使得準確率提高不少。

▲ 表3：不同模型對點贊（Updown），討論深度（Depth），討論廣度（Width）的預測準確度（ >50% 為具有預測能力）

我們還額外進行了 DialogRPT 的 Zero-shot 測試，看他是否能在 Reddit 以外的數據集具有預測能力。我們考查了區別人類回復和隨機回復這個任務，如表 4 所示，DialogRPT 在四個數據集上都表現出來了很強的預測能力。

▲ 表4：不同模型對點贊（Updown），討論深度（Depth），討論廣度（Width）的 hits@k 預測準確度

總結

在大規模計算和預訓練模型時代，也許很多任務都能通過跟多的數據和 GPU 來提高結果。這也許一定程度上解放了我們對于一些技術細節的糾結，留給了我們更多時間去思考任務級別和系統級別的創新。

對話系統除了生成類人的回復外，也許下一個篇章就是變得更加受人喜愛和需要。“思而后言”，對回復進行更好的評估和決策，也許是一個第一步。

我們在論文《Dialogue Response Ranking Training with Large-Scale Human Feedback Data》里詳細介紹了 Reddit Feedback 數據集和 DialogRPT 模型，被 EMNLP 2020 接受。模型，源代碼和數據已開源，見下面鏈接。

源代碼，數據和預訓練模型:?

https://github.com/golsun/DialogRPT

論文鏈接：

https://arxiv.org/abs/2009.06978

參考文獻

[1] Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. 2019b. Dialogpt: Large-scale generative pre-training for conversational response generation. Proc. of ACL.

[2] Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al. 2020. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977.

[3] Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M Smith, et al. 2020. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637.

[4] Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. 2016. A diversity-promoting objective function for neural conversation models. In NAACL, pages 110–119.

[5] Tiancheng Zhao, Ran Zhao, and Maxine Eskenazi. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In ACL, pages 654–664.

[6] Xiang Gao, Sungjin Lee, Yizhe Zhang, Chris Brockett, Michel Galley, Jianfeng Gao, and Bill Dolan. 2019a. Jointly optimizing diversity and relevance in neural response generation. NAACL-HLT 2019.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的思而后言：用点赞数据来帮助对话生成模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《英雄联盟》S14 全球总决赛瑞士轮第四
下一篇：贝叶斯神经网络对梯度攻击的鲁棒性