复旦大学张奇组:对话摘要数据不足?对话数据、文档摘要数据,我全都要!...
?PaperWeekly 原創(chuàng) ·?作者?|?劉興賢
學(xué)校?|?北京郵電大學(xué)碩士生
研究方向?|?自然語言處理
這篇文章發(fā)表在 EMNLP 2021,是復(fù)旦大學(xué)張奇老師組的工作。本文嘗試解決的問題是對話摘要預(yù)訓(xùn)練數(shù)據(jù)不足的問題,通過在未知域多源數(shù)據(jù)上預(yù)訓(xùn)練以提升低資源對話摘要效果。
論文標(biāo)題:
Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining
論文來源:
EMNLP 2021
論文鏈接:
https://arxiv.org/abs/2109.04080
Motivation
對話摘要任務(wù),是從一段對話中抽取或生成一段總結(jié)。
對話摘要任務(wù)面臨的其中一個重要問題是:訓(xùn)練數(shù)據(jù)不足, 但同時對話摘要數(shù)據(jù)很難獲取,人工標(biāo)注代價很高。
那么我們從哪里獲得訓(xùn)練數(shù)據(jù)呢?我們很自然地想到,能不能從其他領(lǐng)域獲得數(shù)據(jù)來加強(qiáng)訓(xùn)練呢?既然是對話摘要領(lǐng)域,我們能不能從對話領(lǐng)域、文本摘要領(lǐng)域中的數(shù)據(jù)集獲益呢?
當(dāng)然可以,而且之前的一些工作確實(shí)有這么做,但隨之也帶來一些問題。這畢竟是對話摘要任務(wù),文檔摘要任務(wù)的輸入與對話摘要任務(wù)的數(shù)據(jù)集形式上差異很大;此外,兩個角色進(jìn)行對話,目的絕不是為了重復(fù)對方的話,所以輸出上有很大差異。
直覺上,我們覺得對話和文檔摘要數(shù)據(jù)確實(shí)應(yīng)該對對話摘要任務(wù)很有幫助,但應(yīng)該怎么使用呢?
Main Idea
本文嘗試解決的核心問題是如果使用了多源的數(shù)據(jù)集,如拿對話數(shù)據(jù)集和文檔摘要數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,會產(chǎn)生預(yù)訓(xùn)練階段和 finetuning 階段的 gap。
這個問題的產(chǎn)生的主要原因之一是因為對話的結(jié)構(gòu)和文檔具有顯著差別:
對話具有特征不同的多個參與者;
對話過程中會出現(xiàn)口語化的非正式表達(dá);
對話摘要的輸出,尤其是長度和結(jié)構(gòu)和其他摘要任務(wù)差別很大。
針對這個問題,本文的核心 Idea 就是:既然無法拿多源數(shù)據(jù)做端到端的訓(xùn)練,那可以將端到端的訓(xùn)練拆分成三部分:encoder 的訓(xùn)練、decoder 的訓(xùn)練、encoder 和 decoder 的聯(lián)合訓(xùn)練。
拆成三部分之后,我們再看看這些部分的目的是什么?
僅獨(dú)立地看 encoder 部分,encoder 的目的是去學(xué)習(xí)對話的表示;
僅獨(dú)立地看 decoder 部分,decoder 的目的是去生成摘要文本;
encoder 和 decoder 的聯(lián)合是為了為一個長輸入生成意義接近的短輸出。
既然 encoder 部分是為了學(xué)習(xí)對話的表示,對話數(shù)據(jù)適合去訓(xùn)練 encoder。
既然 decoder 部分是為了生成摘要文本,那么找一些概括性高的短句子訓(xùn)練 decoder 應(yīng)該是有益的。
而 encoder 和 decoder 的聯(lián)合是為了為一個長輸入生成意義接近的短輸出,因此使用文檔摘要訓(xùn)練 encoder 和 decoder 的聯(lián)合應(yīng)該是有益的。
Abstract
隨著日常生活中對話數(shù)據(jù)量的快速增長,對話摘要的需求也越來越大。不幸的是,由于對話數(shù)據(jù)與注釋摘要難以獲取,訓(xùn)練一個大的摘要模型通常是不可行的。大多數(shù)現(xiàn)有的低資源對話摘要工作直接在其他領(lǐng)域進(jìn)行預(yù)訓(xùn)練,如新聞領(lǐng)域,但他們通常忽略了對話和傳統(tǒng)文章之間的巨大差異。
為了彌補(bǔ)域外預(yù)訓(xùn)練和域內(nèi)微調(diào)之間的差距,在這項工作中,我們提出了一個多源預(yù)訓(xùn)練范式,以更好地利用外部匯總數(shù)據(jù)。具體來說,本文利用大規(guī)模的域內(nèi)非摘要數(shù)據(jù),分別預(yù)訓(xùn)練對話編碼器和摘要解碼器。然后使用對抗數(shù)據(jù)成對組合對解碼模型進(jìn)行域外摘要數(shù)據(jù)的預(yù)訓(xùn)練,以促進(jìn)未知域摘要的生成。
在兩個公開數(shù)據(jù)集上的實(shí)驗結(jié)果表明,在訓(xùn)練數(shù)據(jù)有限的情況下,該方法能夠獲得較好的競爭性能,并且在不同的對話情景下具有較好的概括性。
Method
上圖展示了本文如何利用多源數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
4.1 encoder 訓(xùn)練?
可以看到,對話數(shù)據(jù)用來訓(xùn)練 encoder 來學(xué)習(xí)對話的表示。訓(xùn)練過程使用了一個額外的 dialog decoder,訓(xùn)練任務(wù)是對話數(shù)據(jù)的自我重構(gòu)。也即我們在使用對話數(shù)據(jù)進(jìn)行對話自重構(gòu)的訓(xùn)練過程中,訓(xùn)練了模型的 encoder。同時,為了讓 encoder 更魯棒,使用了 DAE(denoising auto-encoding)去噪編碼器。?
使用的 loss 如下式:
4.2 decoder 訓(xùn)練?
可以看到,本文用概括性強(qiáng)的短文本來訓(xùn)練 decoder 來學(xué)習(xí)摘要輸出的生成。訓(xùn)練過程類似 encoder 也是短文本的重構(gòu),是典型的自監(jiān)督訓(xùn)練。同時使用了一個額外的短文本 encoder,端到端的去訓(xùn)練,并最終只保留 decoder 部分。?
使用的 loss 如下式,和 encoder 一樣都是概率連乘取對數(shù):
4.3 聯(lián)合訓(xùn)練?
此外,還有 encoder 和 decoder 的聯(lián)合訓(xùn)練,這個部分是使用文檔摘要數(shù)據(jù)來訓(xùn)練的,目的是為了學(xué)習(xí)由長文本輸入到短文本輸出的建模。
4.4 對抗學(xué)習(xí)模塊
理想的目標(biāo)是:讓 DAE(去噪編碼器)學(xué)習(xí)到對話的語言風(fēng)格和表示。
但由于我們同時饋送到 encoder 中的不止是對話數(shù)據(jù)(非正式),還有一部分是文本摘要數(shù)據(jù)(這里是新聞數(shù)據(jù))。同樣地,decoder 中饋送的是短文本和文本摘要的 encode 結(jié)果。模型會學(xué)到這些特定域的歸納偏置。因此如果模型在一個新的領(lǐng)域中進(jìn)行摘要將變得十分困難。我們?nèi)绻胱屇P头夯揭粋€新的域,需要學(xué)習(xí)這些域中表示的通用特征。
因此本文基于對抗學(xué)習(xí)的思想,使用了一個對抗鑒別器,努力地使鑒別器不能預(yù)測是哪個類,從而確保不同域上的特征分布是相似的,也即讓模型更關(guān)注通用內(nèi)容而不是特定域的屬性。
這里使用的鑒別器是一個簡單的多層感知機(jī),后面加上一個 sigmoid 激活層。訓(xùn)練一個簡單的二元分類器,使用 logistic loss function。
有兩個這樣的鑒別器,分別在 encoder 端試圖區(qū)分對話和新聞數(shù)據(jù),在 decoder 端試圖區(qū)分短文本和新聞數(shù)據(jù)。
4.5 總結(jié)?
最后的總 loss 如下式:
應(yīng)當(dāng)說明的是,前面為了表述清楚,各模塊的訓(xùn)練是分開講的,但其實(shí)仍然是一起訓(xùn)練的,只不過是多任務(wù)的多個 loss 疊加,至此預(yù)訓(xùn)練階段結(jié)束。最后在真正的對話摘要數(shù)據(jù)集上進(jìn)行 finetuning。
Experiment
本文的實(shí)驗設(shè)置是在新聞?wù)獢?shù)據(jù)、對話數(shù)據(jù)、短文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在 SAMSum 數(shù)據(jù)集上進(jìn)行微調(diào),同時也測試了添加了新聞?wù)獢?shù)據(jù)的其他模型效果,從下圖中可以看到,并不是所有的模型在添加了額外的多源數(shù)據(jù)后獲得了效果的提升。
本文同時也進(jìn)行了零樣本學(xué)習(xí),由于進(jìn)行了預(yù)訓(xùn)練,可以看到零樣本場景下的表現(xiàn)還是不錯的。
針對各類數(shù)據(jù)的訓(xùn)練過程的消融實(shí)驗如下圖所示:
可以看到由于加入了預(yù)訓(xùn)練, 所以在低資源情況下,還能保持一定的性能。
下圖展示了對抗學(xué)習(xí)模塊的效果,可以看到在加入對抗學(xué)習(xí)模塊前,對話數(shù)據(jù)和新聞數(shù)據(jù)這兩個不同的域具有明顯的可區(qū)分邊界,這意味著模型學(xué)習(xí)到了它們的歸納偏置;加入對抗學(xué)習(xí)模塊后,兩類數(shù)據(jù)的分布變得相似,不可區(qū)分意味著模型減少了對他們域偏置的特征學(xué)習(xí)。
下圖是對話摘要的一個 case:
Conclusion
本文提出了一種面向低資源對話文摘的領(lǐng)域無關(guān)的多源預(yù)訓(xùn)練模型,該模型利用外部大規(guī)模語料庫中的多源對話建模、摘要語言建模和抽象摘要。?
訓(xùn)練時采用對抗性信號學(xué)習(xí)領(lǐng)域不可知的摘要。實(shí)驗結(jié)果驗證了該方法在低資源環(huán)境下的有效性和通用性。?
未來的研究方向是探索如何在多源預(yù)訓(xùn)練策略中保持 token 級交叉注意力。通過這種方式,我們可以在通用 transformer 架構(gòu)的模型中采用這種策略,例如? bart,以便從大規(guī)模的預(yù)訓(xùn)練語言模型中受益。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的复旦大学张奇组:对话摘要数据不足?对话数据、文档摘要数据,我全都要!...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 薪资超大厂,校招天花板!Google大神
- 下一篇: 知识图谱领域有哪些最新研究进展?不妨从E