ACL 2021 | SimCLS: 概念简单但足够有效的对比学习摘要生成框架
?PaperWeekly 原創(chuàng) ·?作者?|?Maple小七
學(xué)校?|?北京郵電大學(xué)碩士生
研究方向?|?自然語言處理
作者提出了一個(gè)概念簡(jiǎn)單但足夠有效的摘要生成框架:SimCLS,在當(dāng)前的 SOTA 摘要生成模型(BART、Pegasus)基礎(chǔ)上,SimCLS 在生成模型之后加上了一個(gè)無參考摘要的候選摘要打分模型,該打分模型的訓(xùn)練采用了對(duì)比學(xué)習(xí)的思想。SimCLS 可以緩解 Seq2Seq 框架固有的目標(biāo)函數(shù)和評(píng)價(jià)指標(biāo)不一致的問題,從而可以從模型生成的候選摘要中篩選出真實(shí)的評(píng)價(jià)指標(biāo)(ROUGE)打分更高的摘要。
論文標(biāo)題:
SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization
論文鏈接:
https://arxiv.org/abs/2106.01890
代碼鏈接:?
https://github.com/yixinL7/SimCLS
Introduction
當(dāng)前的 Seq2Seq 模型通常在極大似然估計(jì)(MLE)的框架下以 teacher-forcing 的方式得到訓(xùn)練,眾所周知,Seq2Seq 存在著目標(biāo)函數(shù)與評(píng)價(jià)指標(biāo)不一致的問題,因?yàn)槟繕?biāo)函數(shù)計(jì)算的是局部的,token 級(jí)別的損失,而 ROUGE 這類評(píng)價(jià)指標(biāo)會(huì)計(jì)算參考摘要和模型生成的摘要整體上的相似性。
另外,Seq2Seq 模型本身的訓(xùn)練和測(cè)試階段也是不一致的,在測(cè)試階段,模型需要以自回歸的方式生成摘要,因此生成過程存在錯(cuò)誤累加的問題,這個(gè)問題也被廣泛地稱為曝光偏差(exposure bias)問題。
前人針對(duì) Seq2Seq 模型存在的這些問題提出了一些解決方法,目前主要有下面的幾種策略:
Reinforcement Learning: 通過基于全局預(yù)測(cè)的獎(jiǎng)勵(lì)(rewards)直接優(yōu)化評(píng)價(jià)指標(biāo),減輕訓(xùn)練和測(cè)試的不一致性。雖然強(qiáng)化學(xué)習(xí)可以直接優(yōu)化不可導(dǎo)的評(píng)價(jià)指標(biāo),但這又引入了很多強(qiáng)化學(xué)習(xí)本身存在的問題,比如梯度估計(jì)的噪聲會(huì)導(dǎo)致模型對(duì)超參敏感以及訓(xùn)練過程的不穩(wěn)定性。
Minimum Risk Training: 雖然可以直接優(yōu)化評(píng)估指標(biāo),但估計(jì)損失的精度依舊得不到保障。
Structured Prediction: 將先驗(yàn)的句子級(jí)損失與 MLE 損失結(jié)合起來,雖然可以緩解 MLE 訓(xùn)練的局限性,但評(píng)價(jià)指標(biāo)和目標(biāo)函數(shù)之間的關(guān)系依舊是不明確,不直觀的。
在本文中,作者引入了一種基于對(duì)比學(xué)習(xí)的打分模型,該模型通過訓(xùn)練無參考摘要的打分模型來近似需要參考摘要的評(píng)價(jià)指標(biāo),直接學(xué)習(xí)評(píng)價(jià)指標(biāo)本身的打分模式。值得注意的是,雖然已經(jīng)有一些相關(guān)工作提出了可以為 MLE 損失引入對(duì)比損失增強(qiáng)模型表現(xiàn),但作者選擇將對(duì)比損失和 MLE 損失解耦,形成了一個(gè)兩階段結(jié)構(gòu)的模型。
Contrastive Learning Framework for Abstractive Summarization
SimCLS 的思路很直觀,首先,我們預(yù)訓(xùn)練一個(gè)基于 MLE 損失的 Seq2Seq 摘要生成模型,然后建立一個(gè)基于對(duì)比損失的打分模型為生成的候選摘要排序,通過分開優(yōu)化生成模型和評(píng)價(jià)模型,我們能夠以有監(jiān)督的方式訓(xùn)練這兩個(gè)模型,避免了復(fù)雜的強(qiáng)化學(xué)習(xí)方式。
具體來說,給定原文檔 和對(duì)應(yīng)的參考摘要 ,生成式摘要模型 的目標(biāo)是生成候選摘要 ,使得評(píng)價(jià)指標(biāo) 給出的分?jǐn)?shù) 盡可能高。在這個(gè)過程中,我們將模型分解成兩部分:生成模型 和評(píng)價(jià)模型 ,前者負(fù)責(zé)生成候選摘要,后者負(fù)責(zé)打分并選擇最優(yōu)候選摘要。
Candidate Generation: 在訓(xùn)練階段,生成模型 最大化文檔 對(duì)應(yīng)的參考摘要 的似然度,然后通過 Beam Search 生成多個(gè)候選摘要 。
Reference-free Evaluation: 針對(duì)文檔 ,一個(gè)更好的候選摘要 應(yīng)該獲得更高的打分,我們可以建立一個(gè)評(píng)價(jià)模型 ,其目標(biāo)是為 生成的候選摘要 打分:,最后模型輸出的摘要 為獲得最高分的候選摘要:
這里,我們將 初始化為預(yù)訓(xùn)練模型 RoBERTa,該模型首先分別對(duì) 和 編碼,然后計(jì)算各自[CLS]的余弦相似度,將其作為候選摘要 的打分 。
打分模型 的訓(xùn)練損失可以采用對(duì)比學(xué)習(xí)的思想,在前人的對(duì)比學(xué)習(xí)工作中,通常會(huì)顯式地建立正樣本和負(fù)樣本,而這里我們可以將對(duì)比損失推廣到排序損失(ranking loss):
其中 為 margin, 為超參數(shù), 是按真實(shí)的評(píng)價(jià)指標(biāo) 遞減順序排列的候選摘要,這里的 可以是任何評(píng)價(jià)指標(biāo),這里我們采用 ROUGE。大體上說,在訓(xùn)練過程中, 會(huì)學(xué)習(xí)真實(shí)評(píng)價(jià)指標(biāo)的排序模式,即真實(shí)的評(píng)價(jià)指標(biāo)負(fù)責(zé)提供希望模型學(xué)習(xí)的排序結(jié)果,而模型需要在沒有參考摘要的條件下依靠原文檔為候選摘要排序。
Experiments
作者在 CNN/DailyMail(CNNDM)和 XSum 數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn),并采用 ROUGE-1/2/L 和最近提出的 BERTScore 和 MoverScore 作為評(píng)價(jià)指標(biāo),baseline 模型直接調(diào)用了 HFTransformes 提供的基于 BART 的生成式摘要模型,在測(cè)試階段采用 diverse beam search 的采樣策略生成候選摘要。
實(shí)驗(yàn)結(jié)果如下所示,其中*代表結(jié)果取自原文,Origin為作者復(fù)現(xiàn)的基于 BART 的生成模型,Max和Min是模型生成的候選摘要中的最高分摘要和最低分摘要,這表明多樣的采樣策略的確可以進(jìn)一步挖掘模型的潛力,Random是模型隨機(jī)生成摘要的平均分,這與原文結(jié)果基本一致。可以看到,SimCLS 給出的摘要的得分均比隨機(jī)選擇更高,這表明打分模型確實(shí)能夠在候選摘要中選擇更符合評(píng)價(jià)指標(biāo)偏好的摘要。
另外,當(dāng)我們?cè)黾踊驕p少生成的候選摘要的數(shù)量時(shí),評(píng)價(jià)模型依舊能選擇出更好的候選摘要,這表明評(píng)價(jià)模型是足夠穩(wěn)健的。
Fine-grained Analysis
為了進(jìn)一步證明引入的評(píng)價(jià)模型的確帶來了有意義的改進(jìn),作者在不同語義層次上將 SimCLS 與 baseline 做了比較:
Entity-level:首先抽取原文檔 和參考摘要 中共有的實(shí)體,然后計(jì)算這些實(shí)體出現(xiàn)在候選摘要中的比例。
Sentence-level:首先將參考摘要和候選摘要中的句子與原文檔的句子做語義對(duì)齊,然后計(jì)算參考摘要和候選摘要對(duì)應(yīng)句子的重合度。
實(shí)驗(yàn)結(jié)果如下表所示,這表明 SimCLS 生成的摘要能夠更好地捕捉實(shí)體級(jí)的語義信息,且在句子層面上與參考摘要的語義更相似。
下圖展示了一例摘要和原文的句子級(jí)匹配結(jié)果,可以看到 SimCLS 對(duì)齊的句子和參考摘要更為相近,而 baseline 關(guān)注了不夠相關(guān)的句子。有趣的是,這里的參考摘要匹配到了原文的最后一句,而 SimCLS 很好地捕捉到了這一模式。
進(jìn)一步地,作者發(fā)現(xiàn)生成式摘要在處理長文檔(30句以上)時(shí)存在位置偏差(position bias),如下圖所示,可以發(fā)現(xiàn) baseline 會(huì)傾向于關(guān)注靠前的句子,這可能是由 Seq2Seq 模型自回歸的生成方式導(dǎo)致的,而 SimCLS 能在一定程度上緩解位置偏差,這得益于 diverse beam search 和評(píng)價(jià)模型的引入。
Discussion
本文的出發(fā)點(diǎn)是希望解決訓(xùn)練和測(cè)試的不一致的問題,這個(gè)問題可以分為兩個(gè)方面,一個(gè)是自回歸式的 MLE 本身存在的曝光偏差問題,另一個(gè)是目標(biāo)函數(shù)和評(píng)價(jià)指標(biāo)的不一致問題,而本文主要致力于解決后一個(gè)問題。
本文的思路并不復(fù)雜,就是利用對(duì)比學(xué)習(xí)訓(xùn)練了一個(gè)能夠在沒有參考摘要的條件下打分的評(píng)價(jià)模型,該評(píng)價(jià)模型選擇出的摘要在真實(shí)的評(píng)價(jià)指標(biāo)上的表現(xiàn)比隨機(jī)選擇更好。這一思路其實(shí)可以推廣到所有目標(biāo)函數(shù)和評(píng)價(jià)指標(biāo)不一致的場(chǎng)景下,即用可微的模型去學(xué)習(xí)不可微的評(píng)價(jià)指標(biāo),以獲取一個(gè)近似的打分函數(shù)。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的ACL 2021 | SimCLS: 概念简单但足够有效的对比学习摘要生成框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡临时额度到期了可以分期吗 必须按时
- 下一篇: Huggingface BERT源码详解