日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

问题生成的多样性会在多大程度上帮助下游QA任务?

發(fā)布時(shí)間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 问题生成的多样性会在多大程度上帮助下游QA任务? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|Maple小七

學(xué)校|北京郵電大學(xué)碩士生

研究方向|自然語言處理

TL;DR:問題生成(Question Generation, QG)的重要應(yīng)用之一是輔助提升 QA 模型的性能,那么問題生成的多樣性會(huì)在多大程度上幫助下游 QA 任務(wù)?本文通過實(shí)驗(yàn)證明了促進(jìn) QG 多樣性對(duì) QA 模型提升的有效性。

同時(shí),作者發(fā)現(xiàn)目前廣泛使用的評(píng)估指標(biāo)(BLEU、ROUGE、METEOR)不能準(zhǔn)確衡量 QG 模型實(shí)際的生成質(zhì)量,因此作者進(jìn)一步提出了一種能夠綜合評(píng)估 QG 模型綜合性能的指標(biāo),該指標(biāo)綜合考慮了 QG 的準(zhǔn)確性和多樣性,并且與下游 QA 模型的性能指標(biāo)高度正相關(guān)。

論文標(biāo)題:

On the Importance of Diversity in Question Generation for QA

收錄會(huì)議:

ACL 2020

論文鏈接:

https://www.aclweb.org/anthology/2020.acl-main.500.pdf

Question Generation based on Pretrained LM

自 2017 年端到端問題生成任務(wù)被提出以來,問題生成的多樣性就得到了廣泛的研究,但是提高問題生成的多樣性對(duì)問答系統(tǒng)的幫助到底有多大?

下面是作者構(gòu)建的基于 RoBERTa+UniLM 的問題生成模型,可以看出,生成的問題不但在詞匯層面上具有多樣性,在語義層面上也具有多樣性,也就是提出的問題在針對(duì)答案實(shí)體的疑問方面上均有所不同,甚至引入了上下文沒包含的世界知識(shí)(原文沒有提到 Tesla 有 mad scientist 的名聲)。

世界知識(shí)的來源很有可能來自于預(yù)訓(xùn)練模型本身,在開放域文本生成中,以 GPT 系列為代表的大規(guī)模預(yù)訓(xùn)練語言模型已經(jīng)展現(xiàn)出了非常穩(wěn)健的文本生成能力,因此我們不妨將 QG 任務(wù)看作是既受限又開放的文本生成任務(wù)。

借助于強(qiáng)大的語言模型,QG 模型可以生成更多樣,更準(zhǔn)確的問題,從而提升 QA 模型的性能,這也可以看作是一種間接引入隱式外部知識(shí)的方式,這些隱藏在預(yù)訓(xùn)練 RoBERTa 上億個(gè)參數(shù)內(nèi)的外部知識(shí)能夠從多方面提升 QG 模型的性能。

Evaluation / Diversity

目前的 QG 模型的構(gòu)建都依賴于 beam search 解碼生成,以極大似然估計(jì)的方式擬合人類標(biāo)注的問題(Ground Truth, GT),并使用基于 n-gram 相似度的 BLEU 來評(píng)價(jià)模型,然而,人類標(biāo)注的問題常常很少,不具有多樣性,而多樣性希望可以生成與 GT 不同的問題,這導(dǎo)致以極大似然作為目標(biāo)的 QG 模型的多樣性是受到抑制的。

Schlichtkrull, et al., 2020 [1] 也指出面向機(jī)器翻譯的 BLEU、ROUGE、METEOR 這些指標(biāo)不能準(zhǔn)確地反映問題生成模型的多樣性,因?yàn)檫@些指標(biāo)的潛在假設(shè)是參考問句具有相同的表達(dá),也就是假設(shè)只有詞匯上的多樣性,而沒有內(nèi)容上的多樣性。

Question Generation using RoBERTa

促進(jìn)問題生成的多樣性有很多解決方案,總體來說可以分為兩類,一類是以 CVAE 為代表的在訓(xùn)練階段引入潛變量來促進(jìn)多樣性的方法,另一類是以隨機(jī)解碼為代表的在推斷階段優(yōu)化解碼方式的方法。

本文采用的是 Holtzman et al., 2020 [2] 提出的 top-p 核采樣方法(nucleus sampling) ,因?yàn)樵摲椒ê?jiǎn)單,高效,并且解碼速度比 beam search 更快。

3.1 Model

作者訓(xùn)練了基于 RoBERTa+UniLM 的 QG 模型,具體做法是將文章和答案作為 prompt,以語言模型的方式生成問題,訓(xùn)練數(shù)據(jù)格式為 ,Attention 矩陣為 UniLM 中的 seq2seq LM 模式。

3.2?Fine-Tuning

采用 tearcher-forcing 的方式訓(xùn)練模型,最小化掩碼部分的負(fù)對(duì)數(shù)似然函數(shù):

其中 是 Ground Truth 的第 個(gè)詞, 是模型給出的預(yù)測(cè)。

3.3 Inference

top-p 核采樣的思想是截?cái)嗖蓸涌臻g,即設(shè)定 ,針對(duì)每個(gè)時(shí)間步 ,保留 softmax 概率最高且累積概率和剛好大于 的候選 token 子集 并重新標(biāo)準(zhǔn)化為概率分布:

這相當(dāng)于將每一個(gè)時(shí)間步的候選 token 范圍限制為高置信度區(qū)間,相比于 top-k 采樣,top-p 核采樣減小了生成低概率詞的可能性。當(dāng) 時(shí),核采樣就退化為了貪心解碼。

Experiments and Results

4.1 In-Domain Experiments

作者利用 SQuAD 訓(xùn)練集訓(xùn)練問題生成模型,并為 SQuAD 開發(fā)集生成問題,然后在生成的問題集上訓(xùn)練基于 BERT-wwm 的 QA 模型,最后在 SQuAD 測(cè)試集上測(cè)試問答模型。下表給出了在不同訓(xùn)練集大小、不同模型大小和不同解碼方式下問題生成模型的 BLEU-1、ROUGE-4 和 METEOR 分?jǐn)?shù),以及對(duì)應(yīng)的 QA 模型的 分?jǐn)?shù)。

可以發(fā)現(xiàn),top-p 核采樣的 值越高,QG 模型的 BLEU 分?jǐn)?shù)越低,但對(duì)應(yīng)的 QA 模型的 分?jǐn)?shù)卻越高,這說明多樣性與 BLEU 這類自動(dòng)評(píng)估指標(biāo)是反相關(guān)關(guān)系

另外,盡管 beam search 在 QG 自動(dòng)評(píng)價(jià)指標(biāo)上取得了最高分,但對(duì)應(yīng) QA 模型的 分?jǐn)?shù)卻不高,這進(jìn)一步說明了這些自動(dòng)評(píng)價(jià)指標(biāo)無法準(zhǔn)確衡量 QG 模型的質(zhì)量,而?beam search 的偏好是和這些評(píng)價(jià)指標(biāo)的偏好是相同的,也就是以最大似然的方式擬合 Ground Truth,而無法生成 Ground Truth 以外的問題。

4.2 Out-of-Domain Experiments

為了測(cè)試 QG 模型的域外泛化能力,作者用上面在 SQuAD 訓(xùn)練集上訓(xùn)練的 QG 模型為 NewsQA 訓(xùn)練集生成問題,然后訓(xùn)練對(duì)應(yīng)的 QA 模型并測(cè)試,測(cè)試結(jié)果進(jìn)一步支持了上述結(jié)論,也就是隨著核采樣 值的增大,多樣性越大,BLEU、ROUGE 分?jǐn)?shù)越低,QA 越高。

4.3?Comparison with and Augmentation of Human Generation

為了評(píng)估 QG 模型(large-100%-NS@0.95)生成的問題的質(zhì)量,作者將人類標(biāo)注的問題和模型生成的問題做了對(duì)比。

如下表所示,可以發(fā)現(xiàn)在 SQuAD 數(shù)據(jù)集上,用生成的問題(SYNTH)和人類標(biāo)注的問題(GT)訓(xùn)練的 QA 模型的表現(xiàn)非常接近(86.1 vs. 86.3),當(dāng)為每個(gè)答案生成5個(gè)問題時(shí),QA 超越了 GT (86.4 vs. 86.3),這很大程度上是由多樣性帶來的增益。

值得注意的是,利用在 SQuAD 上訓(xùn)練的 QG 模型為 NewsQA 生成的問題(SYNTH)來訓(xùn)練 QA 模型,比起利用人類標(biāo)注的問題(GT)訓(xùn)練的 QA 模型的 分?jǐn)?shù)僅僅差了 4 個(gè)點(diǎn)(63.8 vs. 67.9),這說明訓(xùn)練出的 QG 模型具有不錯(cuò)的零樣本遷移能力

作者也評(píng)估了將生成的問題用于增強(qiáng) QA 模型的效果,作者在大量的 Wikipedia 文章上生成了四百萬個(gè)問題(SYNTH*)來微調(diào)? QA ?模型,然后在 SQuAD/NewsQA 數(shù)據(jù)集上進(jìn)一步微調(diào)該模型,這個(gè)過程類似于領(lǐng)域預(yù)訓(xùn)練的增強(qiáng),模型的最終表現(xiàn)得到了約兩個(gè)點(diǎn)的提升。

這表明在大規(guī)模數(shù)據(jù)集上訓(xùn)練的 QG 模型,能夠很大程度上實(shí)現(xiàn)零樣本的領(lǐng)域問題生成,或是在原始問答數(shù)據(jù)集的基礎(chǔ)上進(jìn)一步提升 QA 模型的表現(xiàn)。

Intrinsic Evaluation of Diverse QG

前面已經(jīng)多次提到目前的評(píng)估指標(biāo)不能準(zhǔn)確評(píng)估 QG 模型的真實(shí)性能,因?yàn)樗魂P(guān)注是否準(zhǔn)確擬合了人工標(biāo)注的問題,為了進(jìn)一步說明 ROUGE 指標(biāo)不能反映多樣性,作者將上面訓(xùn)練好的 32 個(gè)基于核采樣的問題生成模型作為一個(gè)集合。

然后隨機(jī)生成十萬個(gè)子集,每個(gè)子集包含 個(gè)模型,按子集大小分箱,計(jì)算每個(gè)分箱內(nèi)的子集的模型的 ROUGE 指標(biāo)和 QA 指標(biāo)的 Spearman 相關(guān)系數(shù)的平均值,結(jié)果如下圖紅色部分所示,這說明在統(tǒng)計(jì)意義上,ROUGE 指標(biāo)與 QA 指標(biāo)的相關(guān)性是比較弱的。

那么如何設(shè)計(jì)能夠準(zhǔn)確度量 QG 模型的生成質(zhì)量的指標(biāo)呢?我們可以將問題生成的質(zhì)量評(píng)價(jià)分解為兩部分:準(zhǔn)確度、多樣性,并分別將這兩方面指標(biāo)數(shù)學(xué)化,再將兩者結(jié)合起來。

  • Accuracy:和語言模型的困惑度類似,我們可以將 對(duì)所有 取平均作為模型的準(zhǔn)確度指標(biāo) ,其中 為人工標(biāo)注問題 的第 的詞的似然概率。

  • Diversity:雖然可以考慮用解碼步驟候選 token 分布的平均熵來量化多樣性,但熵是一個(gè)非線性增長(zhǎng)且無界的度量指標(biāo),不容易與上面的準(zhǔn)確度組合起來。而作者發(fā)現(xiàn),當(dāng)我們?cè)黾硬蓸娱撝? 時(shí),采樣空間 的基數(shù)也隨之增大,因此 也增大,作者的實(shí)驗(yàn)表明這個(gè)度量指標(biāo)和 的熵有非常強(qiáng)的線性相關(guān)性(0.98),另外,注意到這個(gè)指標(biāo)不像 ,在每個(gè)時(shí)間步 上, 是一個(gè)布爾值,也就是 要么在 中,要么不在,而對(duì)時(shí)間步取平均后,該指標(biāo)就是一個(gè)取值為 的概率值,因此可以將該指標(biāo)和準(zhǔn)確度簡(jiǎn)單地做加權(quán)線性組合。

因此,作者最后提出的綜合指標(biāo)是上述兩個(gè)指標(biāo)的加權(quán):

其中 為可調(diào)節(jié)的參數(shù),反映了評(píng)估者對(duì)模型的偏好。在作者的實(shí)驗(yàn)中,該指標(biāo)與QA 指標(biāo)具有極強(qiáng)的正相關(guān)關(guān)系,不過要注意該指標(biāo)只適用于問題生成,而不適用于更廣泛的文本生成。另外這個(gè)指標(biāo)有一定的實(shí)驗(yàn)性質(zhì),真實(shí)效果如何還需要進(jìn)一步驗(yàn)證。

Conclusion

面向多樣性的評(píng)價(jià)指標(biāo)在以對(duì)話為代表的 NLG 任務(wù)上得到了廣泛的研究,然而多樣性的定義依舊不夠具體,如何衡量、促進(jìn)甚至控制生成文本不同方面的多樣性也是一個(gè)值得關(guān)注的研究方向。

參考文獻(xiàn)

[1] https://arxiv.org/abs/2008.07291

[2] https://arxiv.org/abs/1904.09751

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的问题生成的多样性会在多大程度上帮助下游QA任务?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。