當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

DSTC10开放领域对话评估比赛冠军方法总结

發布時間：2023/12/15 编程问答 77 豆豆

生活随笔收集整理的這篇文章主要介紹了 DSTC10开放领域对话评估比赛冠军方法总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文介紹了國際競賽DSTC10開放領域對話評估賽道的冠軍方法MME-CRS，該方法設計了多種評估指標，并利用相關性重歸一化算法來集成不同指標的打分，為對話評估領域設計更有效的評估指標提供了參考。相關方法已同步發表在AAAI 2022 Workshop上。希望能給從事該技術領域工作的同學一些啟發或幫助。

1 背景

對話系統技術挑戰賽DSTC（The Dialog System Technology Challenge）由微軟、卡內基梅隆大學的科學家于2013年發起，旨在帶動學術與工業界在對話技術上的提升，在對話領域具有極高的權威性和知名度。對話系統挑戰賽今年已舉辦至第十屆（DSTC10），吸引了微軟、亞馬遜、卡內基梅隆大學、Facebook、三菱電子研究實驗室、美團、百度等全球知名企業、頂尖大學和機構同臺競技。

DSTC10共包含5個Track，每個Track包含某一對話領域的數個子任務。其中Track5 Task1 Automatic Open-domain Dialogue Evaluation較為系統全面地將開放領域對話的自動評估任務引入DSTC10比賽中。開放領域對話自動評估是對話系統的重要組成部分，致力于自動化地給出符合人類直覺的對話質量評估結果。相比于速度慢、成本高的人工標注，自動化評估方法可以高效率、低成本地對不同對話系統進行打分，有力促進了對話系統的發展。

不同于任務型對話有一個固定的優化目標，開放領域對話更接近人類真實的對話，評估難度更大，因而吸引了廣泛的關注。DSTC10 Track5 Task1比賽共包含14個驗證數據集（共包含37種不同的對話評估維度）和5個測試數據集（共包含11個評估維度）。美團語音團隊最終以平均0.3104的相關性取得了該比賽的第一名，該部分工作已完成一篇論文MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue，并收錄在AAAI2022 Workshop。

圖1 DSTC10對話系統挑戰賽

2 賽題簡介

開放領域對話評估比賽收集了對話領域論文中的經典數據集，包括14個驗證數據集（12個Turn-Level級別數據集和2個Dialog-Level級別數據集）和5個測試數據集。

數據集中的每個對話主要包含以下信息：

Context：對話中的提問，或者說對話的上下文。
Response：針對Context的回復，也即評估的具體對象；對話數據集中的Response一般由不同對話生成模型產生，如GPT-2和T5。
Reference：人工給出的針對Context的參考回答，一般為5條左右。

每個對話包含多個評估維度，如Context和Response的相關性，Response本身的流暢度等。每個數據集的評估維度不同，14個驗證集總共包含37種不同的評估維度，具體包含Overall、Grammar、Relevance、Appropriateness、Interesting等。每個評估維度都有人工標注的打分，打分從1到5，分數越高表示當前評估維度的質量越高。

驗證集和測試集的統計信息如圖2和圖3所示：

圖2 DSTC10 Track5 Task1驗證集數據統計信息

圖3 DSTC10 Track5 Task1測試集數據統計信息

其中Turns表示對應數據集中的對話輪數；Qualities表示數據集中每個對話的評估維度，每個評估維度都有對應的人工標注打分；Annos表示每個數據集的標注量。

在該比賽中，每個數據集每個對話每個評估維度都有人工標注的打分，打分范圍一般為1到5，一般求均值用于相關性計算。參賽隊伍需要設計評估指標用于預測每個對話不同評估維度的打分。每個數據集的每個評估維度的預測打分會和人工標注的打分計算Spearman相關性，最后的比賽結果基于全部測試數據集的評估維度求均值。

3 現有方法和問題

3.1 現有方法

開放領域對話的自動評估方法主要分為三類。

Overlap-based方法

早期研究人員將對話系統中Reference和Response類比于機器翻譯中的原句和翻譯句，借鑒機器翻譯的評價指標來評估對話質量。Overlap-based方法計算對話中Response和Reference之間的詞重疊情況，詞重疊越高打分越高。經典方法包括BLEU[1]和ROUGE[2]等，其中BLEU根據精確率衡量評估質量，而ROUGE根據召回率衡量質量。Response的評估依賴于給定的Reference，而開放領域下合適的Response是無限的，因此，Overlap-based方法并不適用于開放領域對話評估。

Embedding-based方法

隨著詞向量和預訓練語言模型的快速發展，Embedding-based評估方法取得了不錯的性能。基于深度模型分別編碼Response和Reference，并基于二者的編碼計算相關性打分。主要方法包括Greedy Matching[3]、Embedding Averaging[4]和BERTScore[5-6]等。Embedding-based方法相比Overlap-based方法有較大的提升，但是同樣依賴于Reference，仍然存在較大的優化空間。

Learning-based方法

基于Reference的開放領域對話評估存在一個One-To-Many[7]困境：即開放領域對話合適的Response是無限的，但人為設計的Reference是有限的（一般為5條左右）。因此，基于對比Reference和Response的相似性（字面重疊或者語義相似）設計開放領域評估方法存在較大局限性。相比已有的Overlap-based方法和Embedding-based方法，ADEM方法[8]首次使用層次化的編碼器來編碼Context和Reference，并對輸入的Response進行打分。ADEM方法基于模型打分和人工打分的均方誤差來優化模型參數，期望逼近人類的打分。ADEM模型相比Overlap-based方法和Embedding-based方法取得了很大的成功，Learning-based方法也逐漸成為了開放領域自動化評估的主流方法。

為了不斷提高對話評估的準確和全面性，各種不同的評估維度層出不窮。為了應對越來越多評估維度帶來的挑戰，USL-H[9]將評估維度分為Understandability、Sensibleness和Likeability三類，如圖4所示。USL-H針對性提出了VUP（Valid Utterance Prediction）、NUP（Next Utterance Prediction）和MLM（Mask Language Model）3種指標，分別衡量對話中：

Response是否通順流暢。

Context和Respose的相關程度。

Response本身是否詳細，更像人類等。

圖4 USL-H評估算法的分層次模型

3.2 問題

現有的評估方法主要有以下問題：

設計的對話指標不夠全面，難以綜合衡量對話的質量

現有的自動評估方法主要聚焦在個別數據集的部分評估維度上。以當前較為全面的USL-H為例，該方法考慮了Response的流暢度、豐富度以及Context-Response句子對的相關性，但是USL-H忽略了：

更細粒度的Context-Response句子對的主題一致性。

回復者對當前對話的參與度。

實驗證明，這些指標的遺漏嚴重影響了評估方法的性能。為了更全面穩定地評估多個對話數據集，設計考慮更多評估維度的指標勢在必行。

缺乏有效的指標集成方法

現有方法大多傾向于為每種評估維度設計一種評估指標，這種思路面對越來越多的評估維度顯得力不從心（考慮下比賽測試集共包含37種不同的評估維度）。每種對話維度的評估可能依賴數種評估指標，如Logical評估維度需要對話：1）Response流暢；2）Response和Context是相關的。設計基本的評估子指標，再通過合適的集成方法集成多個子指標打分，可以更全面有效表示不同的對話評估維度。

4 我們的方法

針對評估指標不夠全面，本文設計了5類共7種評估指標（Multi-Metric Evaluation，MME）用于全面衡量對話的質量。基于設計的5類7種基礎指標，我們進一步提出了相關性重歸一化方法（Correlation Re-Scaling Method，CRS）來集成不同評估指標的打分。我們將提出的模型稱為MME-CRS，模型整體架構圖5所示：

圖5 模型總體架構設計圖

4.1 基礎指標

為了解決現有方法的第一個問題，即設計的對話指標不夠全面，我們在比賽中設計了5類共7種評估子指標。

4.1.1 Fluency Metric (FM)

目的：分析Response本身是否足夠流暢可理解。

內容：首先基于Dailydialog數據集[10]構建response流暢度數據集，流程如下：

在Dailydialog數據集中隨機選擇一個Response，并以0.5概率決定r是正樣本還是負樣本。

如果樣本r是正樣本，隨機選擇一種調整：a.不調整；b.對每一個停用詞，以0.5的概率刪除。

如果樣本r是負樣本，隨機選擇一種調整：a.隨機打亂詞序；b.隨機刪除一定比例的詞語；c.隨機選擇部分詞語并重復。

基于上述規則構建流暢度數據集后，在預訓練模型SimCSE模型[11]上微調。微調后的模型可以計算任一對話的Response流暢度打分，記為FM打分。

4.1.2 Relevance Metric (RM)

目的：分析Context和Response的相關程度。

內容：基于Dailydialog數據集構建Context-Response句子對形式的相關性數據集，其中句子對相關為正樣本，不相關則為負樣本。負樣本的通常構建思路是將Response隨機替換成其他對話的Response。PONE方法[12]指出隨機挑選的Respose和Context基本不相關，模型訓練收益很小。因此，這里的做法是隨機選擇10條Response，并計算和真實Response的語義相關度，并選擇排名居中的句子作為偽樣本。構造數據集后再在SimCSE模型上微調，微調后的模型可用于計算對話中Context和Response的相關度打分，記為RM打分。

4.1.3 Topic Coherence Metric (TCM)

目的：分析Context和Response的主題一致性。

內容：GRADE方法[13]構建了Context和Response的主題詞級別的圖表示，并計算了Context和Response的主題詞級別的相關度。相比粗粒度的相關性指標，GRADE更加關注細粒度級別的主題相關程度，是相關性指標的有效補充。TCM指標借鑒GRADE方法。

具體流程如下：首先提取Context和Response中的關鍵詞構建圖，其中每個關鍵詞都是一個節點，只有Context和Response的關鍵詞之間存在邊。基于ConceptNet獲取每個節點的表示，再使用圖注意力網絡（GATs）聚集關鍵詞鄰居節點的信息并迭代每個節點的表示，最后綜合全部節點的表示得到對話的圖表示。在主題詞級別的圖表示上連接全連接層用于分類，微調后的模型即可用于計算對話的TCM打分。

4.1.4 Engagement Metric (EM)

目的：分析生成Response的人或對話模型有多大的意愿參與當前對話。

內容：前面提到的指標都是從Context和Response視角評估對話質量，而用戶參與度則是基于用戶的視角來評估。用戶參與度打分一般是0~5，分數越大，表示用戶參與當前對話的興趣越大。我們將ConvAI數據集[10]的參與度打分從1~5縮放到0~1，作為參與度打分數據集。預訓練模型仍然使用SimCSE，用于預測對話的參與度打分。預訓練后的模型可用于預測對話的用戶參與度打分，記為EM。

4.1.5 Specificity Metric (SM)

目的：分析Response本身是否足夠細節。

內容：SM指標用于避免Response模棱兩可，缺乏信息量。

具體做法如下：序列Mask掉Response中的每一個Token，并基于SimCSE模型的MLM任務計算Negative Log-Likelihood損失，得到的打分稱為SM-NLL。替換損失函數為Negative Cross-Entropy和Perplexity可以分別得到SM-NCE和SM-PPL打分，共3個SM指標打分。3個SM指標打分都需要分別歸一化到0和1之間。

4.2 集成方法CRS

集成不同評估指標的打分是提高自動化對話評估效果的有效手段。

對每一個待評估的對話，基于上述5類7種基礎指標可以得到7種不同的打分。對于待評估數據集的某個評估維度，需要綜合7種指標打分得到一個綜合打分，用于和人類打分計算相關性。我們的集成方法分為以下兩步。

4.2.1 不同評估維度權重分布的計算

首先，計算驗證集上每個數據集每個評估維度7種評估指標的相關性打分，相關性打分越大，認為該指標對該評估維度越重要。對越重要的評估指標賦予一個更大的權重，并將得到的權重在指標維度重新歸一化，這樣則得到了每個數據集每個評估維度上不同評估指標的權重分布：

其中是第個數據集第個評估維度上第個評估指標的相關性打分，是相關性打分的冪數，越大則相關性打分越高的指標的權重就越大。一般當max（）在1/3到1/2之間時集成效果最好，這是計算的一種簡單有效手段。實驗中，將設置為常數可以獲得更好的泛化效果，我們將設置為2，并在驗證集上計算權重分布，再遷移到測試集上，取得了比賽最優性能。

在數據集維度，將不同數據集中相同評估維度的權重求均值，得到每個評估維度在不同評估指標上的權重分布：

注意這里得到的權重分布已經和具體數據集無關，可以將權重分布遷移到測試集上。

4.2.2 計算指標打分的加權和

對每個測試集的每個評估維度，計算7種指標打分并基于第一步的權重求加權和，得到綜合打分：

加權得到的綜合打分和人工打分計算相關性，得到每種評估維度上的模型打分和人工打分的相關性打分。

我們的集成方法基于指標的相關性打分賦予權重并重新歸一化，所以將該集成方法稱為相關性重歸一化方法。在得到的MME指標上使用CRS集成方法，可得MME-CRS評估算法。

5 實驗分析

5.1 實驗結果

我們的方法主要基于Dailydialog數據集預訓練（除了EM子指標是使用ConvAI2數據集），在比賽驗證集上計算集成方法的權重分布，最終在測試集上取得了0.3104的Spearman相關性打分。

圖6展示了比賽基準模型Deep AM-FM[14]以及比賽Top5隊伍在測試集上不同數據集評估維度的性能。本文的方法以0.3104的平均Spearman相關性系數取得了第一，且在5個數據集全部11個評估維度中的6個取得了第一，證明了本文方法的優越性能。

圖6 測試集上Top 5隊伍的Spearman相關性打分對比（%）

為了方便展示，圖中方法采用了數據集-評估維度的展示方式。其中J、E、N、DT、DP分別表示JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona數據集，而A、C、G、R分別表示Appropriateness、Content、Grammar、Relevance評估維度。我們對每個評估維度上最好的性能進行了加粗。

5.2 消融實驗

在消融實驗部分，我們以本文方法MME-CRS評估為基準，在集成階段分別去除FM、RM、TCM、EM、SM、RM+TCM指標，對比不同指標在集成過程中的重要性。實驗性能如圖7所示：

圖7 測試集上不同評估指標的消融實驗（%）

相關性指標RM和主題一致性指標TCM都使用了對話中的Context和Response信息，因此在實驗中同時去除這兩個指標，觀察對性能的影響。從圖7中的實驗結果可以看出：

TCM、RM和EM對于模型性能的貢獻最大，打分集成階段刪除這三個評估指標后，測試集上的平均Spearman相關性打分分別降低了3.26%、1.56%和1.01%。
粗粒度的RM指標和細粒度的TCM指標是有益的互相補充。如果分別去除RM或TCM指標，性能會有稍微下降；如果同時去除RM和TCM指標，評估方法缺乏了Context相關的信息，性能會大幅降低到11.07%。
SM指標在測試集上的提升基本可以忽略。我們分析原因是：測試集中用于生成Response的各個生成模型在測試集語料上過擬合較為嚴重，因此生成了很多非常詳細，但和Context不相關的Response。因此SM指標的優劣對于測試集質量的評估基本沒有作用。

5.3 CRS效果

為了分析集成算法CRS的作用，本文對比了MME-CRS和MME-Avg（將MME多個指標打分簡單平均）兩個評估方法的性能，如圖8所示：

圖8 MME-CRS和MME-Avg在測試集上的性能對比（%）

從圖中可以看出，MME-CRS方法相比于MME-Avg高了3.49%，證明了CRS算法在集成子指標打分方面的優越性能。

6 總結

在本次比賽中，我們總結了開放領域對話自動評估存在的兩個主要問題，即評估指標不夠全面和缺乏有效的指標集成方法。針對評估指標不夠全面的問題，本文設計了5類7種評估指標用于全面衡量對話的質量；基于7種基礎指標，提出了相關性重歸一化方法來計算每種對話評估維度的集成打分。

雖然本文方法在DSTC10比賽中取得了較好的成績，但后續我們將繼續探索其他更有效的評估指標和指標集成方法。我們正在嘗試將比賽中的技術應用到美團具體業務中，如語音交互中心的智能外呼機器人、智能營銷和智能客服中，在多個不同維度評估機器、人工客服與用戶的對話質量，不斷優化對話效果，提升用戶的滿意度。

參考文獻

[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.

[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.

[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.

[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.

作者簡介

鵬飛、曉慧、凱東、汪建、春陽等，均為美團平臺/語音交互部工程師。

----------? END? ----------

招聘信息

美團語音交互部負責美團語音和智能交互技術及產品研發，面向美團業務和生態伙伴，提供語音和口語數據的大規模處理及智能響應能力。團隊在語音識別、合成、口語理解、智能問答和多輪交互等技術上已建成大規模的技術平臺服務，研發包括外呼機器人、智能客服、語音交互平臺等解決方案和產品并廣泛落地。我們長期招聘志同道合的伙伴，感興趣的同學可以將簡歷發送至：yuanchunyang@meituan.com（郵件主題：美團平臺語音交互部）

美團科研合作

美團科研合作致力于搭建美團各部門與高校、科研機構、智庫的合作橋梁和平臺，依托美團豐富的業務場景、數據資源和真實的產業問題，開放創新，匯聚向上的力量，圍繞人工智能、大數據、物聯網、無人駕駛、運籌優化、數字經濟、公共事務等領域，共同探索前沿科技和產業焦點宏觀問題，促進產學研合作交流和成果轉化，推動優秀人才培養。面向未來，我們期待能與更多高校和科研院所的老師和同學們進行合作。歡迎老師和同學們發送郵件至：meituan.oi@meituan.com?。

也許你還想看

? |?MT-BERT在文本檢索任務中的實踐

? |?美團知識圖譜問答技術實踐與探索

? |?對話任務中的“語言-視覺”信息融合研究

---

前端?|??算法?|?后端?|?數據

安全?|?Android?|?iOS??|?運維?|?測試

總結

以上是生活随笔為你收集整理的DSTC10开放领域对话评估比赛冠军方法总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： RC复位电路上二极管的作用
下一篇：中国古代数学家张丘建在他的《算经》中提出