问题生成的多样性会在多大程度上帮助下游QA任务?
?PaperWeekly 原創 ·?作者|Maple小七
學校|北京郵電大學碩士生
研究方向|自然語言處理
TL;DR:問題生成(Question Generation, QG)的重要應用之一是輔助提升 QA 模型的性能,那么問題生成的多樣性會在多大程度上幫助下游 QA 任務?本文通過實驗證明了促進 QG 多樣性對 QA 模型提升的有效性。
同時,作者發現目前廣泛使用的評估指標(BLEU、ROUGE、METEOR)不能準確衡量 QG 模型實際的生成質量,因此作者進一步提出了一種能夠綜合評估 QG 模型綜合性能的指標,該指標綜合考慮了 QG 的準確性和多樣性,并且與下游 QA 模型的性能指標高度正相關。
論文標題:
On the Importance of Diversity in Question Generation for QA
收錄會議:
ACL 2020
論文鏈接:
https://www.aclweb.org/anthology/2020.acl-main.500.pdf
Question Generation based on Pretrained LM
自 2017 年端到端問題生成任務被提出以來,問題生成的多樣性就得到了廣泛的研究,但是提高問題生成的多樣性對問答系統的幫助到底有多大?
下面是作者構建的基于 RoBERTa+UniLM 的問題生成模型,可以看出,生成的問題不但在詞匯層面上具有多樣性,在語義層面上也具有多樣性,也就是提出的問題在針對答案實體的疑問方面上均有所不同,甚至引入了上下文沒包含的世界知識(原文沒有提到 Tesla 有 mad scientist 的名聲)。
世界知識的來源很有可能來自于預訓練模型本身,在開放域文本生成中,以 GPT 系列為代表的大規模預訓練語言模型已經展現出了非常穩健的文本生成能力,因此我們不妨將 QG 任務看作是既受限又開放的文本生成任務。
借助于強大的語言模型,QG 模型可以生成更多樣,更準確的問題,從而提升 QA 模型的性能,這也可以看作是一種間接引入隱式外部知識的方式,這些隱藏在預訓練 RoBERTa 上億個參數內的外部知識能夠從多方面提升 QG 模型的性能。
Evaluation / Diversity
目前的 QG 模型的構建都依賴于 beam search 解碼生成,以極大似然估計的方式擬合人類標注的問題(Ground Truth, GT),并使用基于 n-gram 相似度的 BLEU 來評價模型,然而,人類標注的問題常常很少,不具有多樣性,而多樣性希望可以生成與 GT 不同的問題,這導致以極大似然作為目標的 QG 模型的多樣性是受到抑制的。
Schlichtkrull, et al., 2020 [1] 也指出面向機器翻譯的 BLEU、ROUGE、METEOR 這些指標不能準確地反映問題生成模型的多樣性,因為這些指標的潛在假設是參考問句具有相同的表達,也就是假設只有詞匯上的多樣性,而沒有內容上的多樣性。
Question Generation using RoBERTa
促進問題生成的多樣性有很多解決方案,總體來說可以分為兩類,一類是以 CVAE 為代表的在訓練階段引入潛變量來促進多樣性的方法,另一類是以隨機解碼為代表的在推斷階段優化解碼方式的方法。
本文采用的是 Holtzman et al., 2020 [2] 提出的 top-p 核采樣方法(nucleus sampling) ,因為該方法簡單,高效,并且解碼速度比 beam search 更快。
3.1 Model
作者訓練了基于 RoBERTa+UniLM 的 QG 模型,具體做法是將文章和答案作為 prompt,以語言模型的方式生成問題,訓練數據格式為 ,Attention 矩陣為 UniLM 中的 seq2seq LM 模式。
3.2?Fine-Tuning
采用 tearcher-forcing 的方式訓練模型,最小化掩碼部分的負對數似然函數:
其中 是 Ground Truth 的第 個詞, 是模型給出的預測。
3.3 Inference
top-p 核采樣的思想是截斷采樣空間,即設定 ,針對每個時間步 ,保留 softmax 概率最高且累積概率和剛好大于 的候選 token 子集 并重新標準化為概率分布:
這相當于將每一個時間步的候選 token 范圍限制為高置信度區間,相比于 top-k 采樣,top-p 核采樣減小了生成低概率詞的可能性。當 時,核采樣就退化為了貪心解碼。
Experiments and Results
4.1 In-Domain Experiments
作者利用 SQuAD 訓練集訓練問題生成模型,并為 SQuAD 開發集生成問題,然后在生成的問題集上訓練基于 BERT-wwm 的 QA 模型,最后在 SQuAD 測試集上測試問答模型。下表給出了在不同訓練集大小、不同模型大小和不同解碼方式下問題生成模型的 BLEU-1、ROUGE-4 和 METEOR 分數,以及對應的 QA 模型的 分數。
可以發現,top-p 核采樣的 值越高,QG 模型的 BLEU 分數越低,但對應的 QA 模型的 分數卻越高,這說明多樣性與 BLEU 這類自動評估指標是反相關關系。
另外,盡管 beam search 在 QG 自動評價指標上取得了最高分,但對應 QA 模型的 分數卻不高,這進一步說明了這些自動評價指標無法準確衡量 QG 模型的質量,而?beam search 的偏好是和這些評價指標的偏好是相同的,也就是以最大似然的方式擬合 Ground Truth,而無法生成 Ground Truth 以外的問題。
4.2 Out-of-Domain Experiments
為了測試 QG 模型的域外泛化能力,作者用上面在 SQuAD 訓練集上訓練的 QG 模型為 NewsQA 訓練集生成問題,然后訓練對應的 QA 模型并測試,測試結果進一步支持了上述結論,也就是隨著核采樣 值的增大,多樣性越大,BLEU、ROUGE 分數越低,QA 越高。
4.3?Comparison with and Augmentation of Human Generation
為了評估 QG 模型(large-100%-NS@0.95)生成的問題的質量,作者將人類標注的問題和模型生成的問題做了對比。
如下表所示,可以發現在 SQuAD 數據集上,用生成的問題(SYNTH)和人類標注的問題(GT)訓練的 QA 模型的表現非常接近(86.1 vs. 86.3),當為每個答案生成5個問題時,QA 超越了 GT (86.4 vs. 86.3),這很大程度上是由多樣性帶來的增益。
值得注意的是,利用在 SQuAD 上訓練的 QG 模型為 NewsQA 生成的問題(SYNTH)來訓練 QA 模型,比起利用人類標注的問題(GT)訓練的 QA 模型的 分數僅僅差了 4 個點(63.8 vs. 67.9),這說明訓練出的 QG 模型具有不錯的零樣本遷移能力。
作者也評估了將生成的問題用于增強 QA 模型的效果,作者在大量的 Wikipedia 文章上生成了四百萬個問題(SYNTH*)來微調? QA ?模型,然后在 SQuAD/NewsQA 數據集上進一步微調該模型,這個過程類似于領域預訓練的增強,模型的最終表現得到了約兩個點的提升。
這表明在大規模數據集上訓練的 QG 模型,能夠很大程度上實現零樣本的領域問題生成,或是在原始問答數據集的基礎上進一步提升 QA 模型的表現。
Intrinsic Evaluation of Diverse QG
前面已經多次提到目前的評估指標不能準確評估 QG 模型的真實性能,因為它只關注是否準確擬合了人工標注的問題,為了進一步說明 ROUGE 指標不能反映多樣性,作者將上面訓練好的 32 個基于核采樣的問題生成模型作為一個集合。
然后隨機生成十萬個子集,每個子集包含 個模型,按子集大小分箱,計算每個分箱內的子集的模型的 ROUGE 指標和 QA 指標的 Spearman 相關系數的平均值,結果如下圖紅色部分所示,這說明在統計意義上,ROUGE 指標與 QA 指標的相關性是比較弱的。
那么如何設計能夠準確度量 QG 模型的生成質量的指標呢?我們可以將問題生成的質量評價分解為兩部分:準確度、多樣性,并分別將這兩方面指標數學化,再將兩者結合起來。
Accuracy:和語言模型的困惑度類似,我們可以將 對所有 取平均作為模型的準確度指標 ,其中 為人工標注問題 的第 的詞的似然概率。
Diversity:雖然可以考慮用解碼步驟候選 token 分布的平均熵來量化多樣性,但熵是一個非線性增長且無界的度量指標,不容易與上面的準確度組合起來。而作者發現,當我們增加采樣閾值 時,采樣空間 的基數也隨之增大,因此 也增大,作者的實驗表明這個度量指標和 的熵有非常強的線性相關性(0.98),另外,注意到這個指標不像 ,在每個時間步 上, 是一個布爾值,也就是 要么在 中,要么不在,而對時間步取平均后,該指標就是一個取值為 的概率值,因此可以將該指標和準確度簡單地做加權線性組合。
因此,作者最后提出的綜合指標是上述兩個指標的加權:
其中 為可調節的參數,反映了評估者對模型的偏好。在作者的實驗中,該指標與QA 指標具有極強的正相關關系,不過要注意該指標只適用于問題生成,而不適用于更廣泛的文本生成。另外這個指標有一定的實驗性質,真實效果如何還需要進一步驗證。
Conclusion
面向多樣性的評價指標在以對話為代表的 NLG 任務上得到了廣泛的研究,然而多樣性的定義依舊不夠具體,如何衡量、促進甚至控制生成文本不同方面的多樣性也是一個值得關注的研究方向。
參考文獻
[1] https://arxiv.org/abs/2008.07291
[2] https://arxiv.org/abs/1904.09751
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的问题生成的多样性会在多大程度上帮助下游QA任务?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 京东 | AI人才联合培养计划
- 下一篇: 目标跟踪从0到1:算法与实践