DSTC10开放领域对话评估比赛冠军方法总结
本文介紹了國際競賽DSTC10開放領域?qū)υ捲u估賽道的冠軍方法MME-CRS,該方法設計了多種評估指標,并利用相關性重歸一化算法來集成不同指標的打分,為對話評估領域設計更有效的評估指標提供了參考。相關方法已同步發(fā)表在AAAI 2022 Workshop上。希望能給從事該技術領域工作的同學一些啟發(fā)或幫助。
1 背景
對話系統(tǒng)技術挑戰(zhàn)賽DSTC(The Dialog System Technology Challenge)由微軟、卡內(nèi)基梅隆大學的科學家于2013年發(fā)起,旨在帶動學術與工業(yè)界在對話技術上的提升,在對話領域具有極高的權(quán)威性和知名度。對話系統(tǒng)挑戰(zhàn)賽今年已舉辦至第十屆(DSTC10),吸引了微軟、亞馬遜、卡內(nèi)基梅隆大學、Facebook、三菱電子研究實驗室、美團、百度等全球知名企業(yè)、頂尖大學和機構(gòu)同臺競技。
DSTC10共包含5個Track,每個Track包含某一對話領域的數(shù)個子任務。其中Track5 Task1 Automatic Open-domain Dialogue Evaluation較為系統(tǒng)全面地將開放領域?qū)υ挼淖詣釉u估任務引入DSTC10比賽中。開放領域?qū)υ捵詣釉u估是對話系統(tǒng)的重要組成部分,致力于自動化地給出符合人類直覺的對話質(zhì)量評估結(jié)果。相比于速度慢、成本高的人工標注,自動化評估方法可以高效率、低成本地對不同對話系統(tǒng)進行打分,有力促進了對話系統(tǒng)的發(fā)展。
不同于任務型對話有一個固定的優(yōu)化目標,開放領域?qū)υ捀咏祟愓鎸嵉膶υ?#xff0c;評估難度更大,因而吸引了廣泛的關注。DSTC10 Track5 Task1比賽共包含14個驗證數(shù)據(jù)集(共包含37種不同的對話評估維度)和5個測試數(shù)據(jù)集(共包含11個評估維度)。美團語音團隊最終以平均0.3104的相關性取得了該比賽的第一名,該部分工作已完成一篇論文MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue,并收錄在AAAI2022 Workshop。
圖1 DSTC10對話系統(tǒng)挑戰(zhàn)賽2 賽題簡介
開放領域?qū)υ捲u估比賽收集了對話領域論文中的經(jīng)典數(shù)據(jù)集,包括14個驗證數(shù)據(jù)集(12個Turn-Level級別數(shù)據(jù)集和2個Dialog-Level級別數(shù)據(jù)集)和5個測試數(shù)據(jù)集。
數(shù)據(jù)集中的每個對話主要包含以下信息:
-
Context:對話中的提問,或者說對話的上下文。
-
Response:針對Context的回復,也即評估的具體對象;對話數(shù)據(jù)集中的Response一般由不同對話生成模型產(chǎn)生,如GPT-2和T5。
-
Reference:人工給出的針對Context的參考回答,一般為5條左右。
每個對話包含多個評估維度,如Context和Response的相關性,Response本身的流暢度等。每個數(shù)據(jù)集的評估維度不同,14個驗證集總共包含37種不同的評估維度,具體包含Overall、Grammar、Relevance、Appropriateness、Interesting等。每個評估維度都有人工標注的打分,打分從1到5,分數(shù)越高表示當前評估維度的質(zhì)量越高。
驗證集和測試集的統(tǒng)計信息如圖2和圖3所示:
圖2 DSTC10 Track5 Task1驗證集數(shù)據(jù)統(tǒng)計信息 圖3 DSTC10 Track5 Task1測試集數(shù)據(jù)統(tǒng)計信息其中Turns表示對應數(shù)據(jù)集中的對話輪數(shù);Qualities表示數(shù)據(jù)集中每個對話的評估維度,每個評估維度都有對應的人工標注打分;Annos表示每個數(shù)據(jù)集的標注量。
在該比賽中,每個數(shù)據(jù)集每個對話每個評估維度都有人工標注的打分,打分范圍一般為1到5,一般求均值用于相關性計算。參賽隊伍需要設計評估指標用于預測每個對話不同評估維度的打分。每個數(shù)據(jù)集的每個評估維度的預測打分會和人工標注的打分計算Spearman相關性,最后的比賽結(jié)果基于全部測試數(shù)據(jù)集的評估維度求均值。
3 現(xiàn)有方法和問題
3.1 現(xiàn)有方法
開放領域?qū)υ挼淖詣釉u估方法主要分為三類。
Overlap-based方法
早期研究人員將對話系統(tǒng)中Reference和Response類比于機器翻譯中的原句和翻譯句,借鑒機器翻譯的評價指標來評估對話質(zhì)量。Overlap-based方法計算對話中Response和Reference之間的詞重疊情況,詞重疊越高打分越高。經(jīng)典方法包括BLEU[1]和ROUGE[2]等,其中BLEU根據(jù)精確率衡量評估質(zhì)量,而ROUGE根據(jù)召回率衡量質(zhì)量。Response的評估依賴于給定的Reference,而開放領域下合適的Response是無限的,因此,Overlap-based方法并不適用于開放領域?qū)υ捲u估。
Embedding-based方法
隨著詞向量和預訓練語言模型的快速發(fā)展,Embedding-based評估方法取得了不錯的性能。基于深度模型分別編碼Response和Reference,并基于二者的編碼計算相關性打分。主要方法包括Greedy Matching[3]、Embedding Averaging[4]和BERTScore[5-6]等。Embedding-based方法相比Overlap-based方法有較大的提升,但是同樣依賴于Reference,仍然存在較大的優(yōu)化空間。
Learning-based方法
基于Reference的開放領域?qū)υ捲u估存在一個One-To-Many[7]困境:即開放領域?qū)υ捄线m的Response是無限的,但人為設計的Reference是有限的(一般為5條左右)。因此,基于對比Reference和Response的相似性(字面重疊或者語義相似)設計開放領域評估方法存在較大局限性。相比已有的Overlap-based方法和Embedding-based方法,ADEM方法[8]首次使用層次化的編碼器來編碼Context和Reference,并對輸入的Response進行打分。ADEM方法基于模型打分和人工打分的均方誤差來優(yōu)化模型參數(shù),期望逼近人類的打分。ADEM模型相比Overlap-based方法和Embedding-based方法取得了很大的成功,Learning-based方法也逐漸成為了開放領域自動化評估的主流方法。
為了不斷提高對話評估的準確和全面性,各種不同的評估維度層出不窮。為了應對越來越多評估維度帶來的挑戰(zhàn),USL-H[9]將評估維度分為Understandability、Sensibleness和Likeability三類,如圖4所示。USL-H針對性提出了VUP(Valid Utterance Prediction)、NUP(Next Utterance Prediction)和MLM(Mask Language Model)3種指標,分別衡量對話中:
Response是否通順流暢。
Context和Respose的相關程度。
Response本身是否詳細,更像人類等。
3.2 問題
現(xiàn)有的評估方法主要有以下問題:
設計的對話指標不夠全面,難以綜合衡量對話的質(zhì)量
現(xiàn)有的自動評估方法主要聚焦在個別數(shù)據(jù)集的部分評估維度上。以當前較為全面的USL-H為例,該方法考慮了Response的流暢度、豐富度以及Context-Response句子對的相關性,但是USL-H忽略了:
更細粒度的Context-Response句子對的主題一致性。
回復者對當前對話的參與度。
實驗證明,這些指標的遺漏嚴重影響了評估方法的性能。為了更全面穩(wěn)定地評估多個對話數(shù)據(jù)集,設計考慮更多評估維度的指標勢在必行。
缺乏有效的指標集成方法
現(xiàn)有方法大多傾向于為每種評估維度設計一種評估指標,這種思路面對越來越多的評估維度顯得力不從心(考慮下比賽測試集共包含37種不同的評估維度)。每種對話維度的評估可能依賴數(shù)種評估指標,如Logical評估維度需要對話:1)Response流暢;2)Response和Context是相關的。設計基本的評估子指標,再通過合適的集成方法集成多個子指標打分,可以更全面有效表示不同的對話評估維度。
4 我們的方法
針對評估指標不夠全面,本文設計了5類共7種評估指標(Multi-Metric Evaluation,MME)用于全面衡量對話的質(zhì)量。基于設計的5類7種基礎指標,我們進一步提出了相關性重歸一化方法(Correlation Re-Scaling Method,CRS)來集成不同評估指標的打分。我們將提出的模型稱為MME-CRS,模型整體架構(gòu)圖5所示:
圖5 模型總體架構(gòu)設計圖4.1 基礎指標
為了解決現(xiàn)有方法的第一個問題,即設計的對話指標不夠全面,我們在比賽中設計了5類共7種評估子指標。
4.1.1 Fluency Metric (FM)
目的:分析Response本身是否足夠流暢可理解。
內(nèi)容:首先基于Dailydialog數(shù)據(jù)集[10]構(gòu)建response流暢度數(shù)據(jù)集,流程如下:
在Dailydialog數(shù)據(jù)集中隨機選擇一個Response,并以0.5概率決定r是正樣本還是負樣本。
如果樣本r是正樣本,隨機選擇一種調(diào)整:a.不調(diào)整;b.對每一個停用詞,以0.5的概率刪除。
如果樣本r是負樣本,隨機選擇一種調(diào)整:a.隨機打亂詞序;b.隨機刪除一定比例的詞語;c.隨機選擇部分詞語并重復。
基于上述規(guī)則構(gòu)建流暢度數(shù)據(jù)集后,在預訓練模型SimCSE模型[11]上微調(diào)。微調(diào)后的模型可以計算任一對話的Response流暢度打分,記為FM打分。
4.1.2 Relevance Metric (RM)
目的:分析Context和Response的相關程度。
內(nèi)容:基于Dailydialog數(shù)據(jù)集構(gòu)建Context-Response句子對形式的相關性數(shù)據(jù)集,其中句子對相關為正樣本,不相關則為負樣本。負樣本的通常構(gòu)建思路是將Response隨機替換成其他對話的Response。PONE方法[12]指出隨機挑選的Respose和Context基本不相關,模型訓練收益很小。因此,這里的做法是隨機選擇10條Response,并計算和真實Response的語義相關度,并選擇排名居中的句子作為偽樣本。構(gòu)造數(shù)據(jù)集后再在SimCSE模型上微調(diào),微調(diào)后的模型可用于計算對話中Context和Response的相關度打分,記為RM打分。
4.1.3 Topic Coherence Metric (TCM)
目的:分析Context和Response的主題一致性。
內(nèi)容:GRADE方法[13]構(gòu)建了Context和Response的主題詞級別的圖表示,并計算了Context和Response的主題詞級別的相關度。相比粗粒度的相關性指標,GRADE更加關注細粒度級別的主題相關程度,是相關性指標的有效補充。TCM指標借鑒GRADE方法。
具體流程如下:首先提取Context和Response中的關鍵詞構(gòu)建圖,其中每個關鍵詞都是一個節(jié)點,只有Context和Response的關鍵詞之間存在邊。基于ConceptNet獲取每個節(jié)點的表示,再使用圖注意力網(wǎng)絡(GATs)聚集關鍵詞鄰居節(jié)點的信息并迭代每個節(jié)點的表示,最后綜合全部節(jié)點的表示得到對話的圖表示。在主題詞級別的圖表示上連接全連接層用于分類,微調(diào)后的模型即可用于計算對話的TCM打分。
4.1.4 Engagement Metric (EM)
目的:分析生成Response的人或?qū)υ捘P陀卸啻蟮囊庠竻⑴c當前對話。
內(nèi)容:前面提到的指標都是從Context和Response視角評估對話質(zhì)量,而用戶參與度則是基于用戶的視角來評估。用戶參與度打分一般是0~5,分數(shù)越大,表示用戶參與當前對話的興趣越大。我們將ConvAI數(shù)據(jù)集[10]的參與度打分從1~5縮放到0~1,作為參與度打分數(shù)據(jù)集。預訓練模型仍然使用SimCSE,用于預測對話的參與度打分。預訓練后的模型可用于預測對話的用戶參與度打分,記為EM。
4.1.5 Specificity Metric (SM)
目的:分析Response本身是否足夠細節(jié)。
內(nèi)容:SM指標用于避免Response模棱兩可,缺乏信息量。
具體做法如下:序列Mask掉Response中的每一個Token,并基于SimCSE模型的MLM任務計算Negative Log-Likelihood損失,得到的打分稱為SM-NLL。替換損失函數(shù)為Negative Cross-Entropy和Perplexity可以分別得到SM-NCE和SM-PPL打分,共3個SM指標打分。3個SM指標打分都需要分別歸一化到0和1之間。
4.2 集成方法CRS
集成不同評估指標的打分是提高自動化對話評估效果的有效手段。
對每一個待評估的對話,基于上述5類7種基礎指標可以得到7種不同的打分。對于待評估數(shù)據(jù)集的某個評估維度,需要綜合7種指標打分得到一個綜合打分,用于和人類打分計算相關性。我們的集成方法分為以下兩步。
4.2.1 不同評估維度權(quán)重分布的計算
首先,計算驗證集上每個數(shù)據(jù)集每個評估維度7種評估指標的相關性打分,相關性打分越大,認為該指標對該評估維度越重要。對越重要的評估指標賦予一個更大的權(quán)重,并將得到的權(quán)重在指標維度重新歸一化,這樣則得到了每個數(shù)據(jù)集每個評估維度上不同評估指標的權(quán)重分布:
其中是第個數(shù)據(jù)集第個評估維度上第個評估指標的相關性打分,是相關性打分的冪數(shù),越大則相關性打分越高的指標的權(quán)重就越大。一般當max()在1/3到1/2之間時集成效果最好,這是計算的一種簡單有效手段。實驗中,將設置為常數(shù)可以獲得更好的泛化效果,我們將設置為2,并在驗證集上計算權(quán)重分布,再遷移到測試集上,取得了比賽最優(yōu)性能。
在數(shù)據(jù)集維度,將不同數(shù)據(jù)集中相同評估維度的權(quán)重求均值,得到每個評估維度在不同評估指標上的權(quán)重分布:
注意這里得到的權(quán)重分布已經(jīng)和具體數(shù)據(jù)集無關,可以將權(quán)重分布遷移到測試集上。
4.2.2 計算指標打分的加權(quán)和
對每個測試集的每個評估維度,計算7種指標打分并基于第一步的權(quán)重求加權(quán)和,得到綜合打分:
加權(quán)得到的綜合打分和人工打分計算相關性,得到每種評估維度上的模型打分和人工打分的相關性打分。
我們的集成方法基于指標的相關性打分賦予權(quán)重并重新歸一化,所以將該集成方法稱為相關性重歸一化方法。在得到的MME指標上使用CRS集成方法,可得MME-CRS評估算法。
5 實驗分析
5.1 實驗結(jié)果
我們的方法主要基于Dailydialog數(shù)據(jù)集預訓練(除了EM子指標是使用ConvAI2數(shù)據(jù)集),在比賽驗證集上計算集成方法的權(quán)重分布,最終在測試集上取得了0.3104的Spearman相關性打分。
圖6展示了比賽基準模型Deep AM-FM[14]以及比賽Top5隊伍在測試集上不同數(shù)據(jù)集評估維度的性能。本文的方法以0.3104的平均Spearman相關性系數(shù)取得了第一,且在5個數(shù)據(jù)集全部11個評估維度中的6個取得了第一,證明了本文方法的優(yōu)越性能。
圖6 測試集上Top 5隊伍的Spearman相關性打分對比(%)為了方便展示,圖中方法采用了數(shù)據(jù)集-評估維度的展示方式。其中J、E、N、DT、DP分別表示JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona數(shù)據(jù)集,而A、C、G、R分別表示Appropriateness、Content、Grammar、Relevance評估維度。我們對每個評估維度上最好的性能進行了加粗。
5.2 消融實驗
在消融實驗部分,我們以本文方法MME-CRS評估為基準,在集成階段分別去除FM、RM、TCM、EM、SM、RM+TCM指標,對比不同指標在集成過程中的重要性。實驗性能如圖7所示:
圖7 測試集上不同評估指標的消融實驗(%)相關性指標RM和主題一致性指標TCM都使用了對話中的Context和Response信息,因此在實驗中同時去除這兩個指標,觀察對性能的影響。從圖7中的實驗結(jié)果可以看出:
-
TCM、RM和EM對于模型性能的貢獻最大,打分集成階段刪除這三個評估指標后,測試集上的平均Spearman相關性打分分別降低了3.26%、1.56%和1.01%。
-
粗粒度的RM指標和細粒度的TCM指標是有益的互相補充。如果分別去除RM或TCM指標,性能會有稍微下降;如果同時去除RM和TCM指標,評估方法缺乏了Context相關的信息,性能會大幅降低到11.07%。
-
SM指標在測試集上的提升基本可以忽略。我們分析原因是:測試集中用于生成Response的各個生成模型在測試集語料上過擬合較為嚴重,因此生成了很多非常詳細,但和Context不相關的Response。因此SM指標的優(yōu)劣對于測試集質(zhì)量的評估基本沒有作用。
5.3 CRS效果
為了分析集成算法CRS的作用,本文對比了MME-CRS和MME-Avg(將MME多個指標打分簡單平均)兩個評估方法的性能,如圖8所示:
圖8 MME-CRS和MME-Avg在測試集上的性能對比(%)從圖中可以看出,MME-CRS方法相比于MME-Avg高了3.49%,證明了CRS算法在集成子指標打分方面的優(yōu)越性能。
6 總結(jié)
在本次比賽中,我們總結(jié)了開放領域?qū)υ捵詣釉u估存在的兩個主要問題,即評估指標不夠全面和缺乏有效的指標集成方法。針對評估指標不夠全面的問題,本文設計了5類7種評估指標用于全面衡量對話的質(zhì)量;基于7種基礎指標,提出了相關性重歸一化方法來計算每種對話評估維度的集成打分。
雖然本文方法在DSTC10比賽中取得了較好的成績,但后續(xù)我們將繼續(xù)探索其他更有效的評估指標和指標集成方法。我們正在嘗試將比賽中的技術應用到美團具體業(yè)務中,如語音交互中心的智能外呼機器人、智能營銷和智能客服中,在多個不同維度評估機器、人工客服與用戶的對話質(zhì)量,不斷優(yōu)化對話效果,提升用戶的滿意度。
參考文獻
[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.
[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.
[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.
[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.
[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.
[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.
[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.
[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.
[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.
[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.
[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.
[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.
[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.
[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.
作者簡介
鵬飛、曉慧、凱東、汪建、春陽等,均為美團平臺/語音交互部工程師。
----------? END? ----------
招聘信息
美團語音交互部負責美團語音和智能交互技術及產(chǎn)品研發(fā),面向美團業(yè)務和生態(tài)伙伴,提供語音和口語數(shù)據(jù)的大規(guī)模處理及智能響應能力。團隊在語音識別、合成、口語理解、智能問答和多輪交互等技術上已建成大規(guī)模的技術平臺服務,研發(fā)包括外呼機器人、智能客服、語音交互平臺等解決方案和產(chǎn)品并廣泛落地。我們長期招聘志同道合的伙伴,感興趣的同學可以將簡歷發(fā)送至:yuanchunyang@meituan.com(郵件主題:美團平臺語音交互部)
美團科研合作
美團科研合作致力于搭建美團各部門與高校、科研機構(gòu)、智庫的合作橋梁和平臺,依托美團豐富的業(yè)務場景、數(shù)據(jù)資源和真實的產(chǎn)業(yè)問題,開放創(chuàng)新,匯聚向上的力量,圍繞人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、無人駕駛、運籌優(yōu)化、數(shù)字經(jīng)濟、公共事務等領域,共同探索前沿科技和產(chǎn)業(yè)焦點宏觀問題,促進產(chǎn)學研合作交流和成果轉(zhuǎn)化,推動優(yōu)秀人才培養(yǎng)。面向未來,我們期待能與更多高校和科研院所的老師和同學們進行合作。歡迎老師和同學們發(fā)送郵件至:meituan.oi@meituan.com?。
也許你還想看
? |?MT-BERT在文本檢索任務中的實踐
? |?美團知識圖譜問答技術實踐與探索
? |?對話任務中的“語言-視覺”信息融合研究
---
前端?|??算法?|?后端?|?數(shù)據(jù)
安全?|?Android?|?iOS??|?運維?|?測試
總結(jié)
以上是生活随笔為你收集整理的DSTC10开放领域对话评估比赛冠军方法总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RC复位电路上二极管的作用
- 下一篇: 中国古代数学家张丘建在他的《算经》中提出