日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

浅谈问题生成(Question Generation)

發(fā)布時(shí)間:2024/10/8 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈问题生成(Question Generation) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者 | 劉璐

學(xué)校 | 北京郵電大學(xué)

研究方向 | 問(wèn)題生成與QA

問(wèn)題生成(Question Generation)是文本生成中的重要子任務(wù),旨在根據(jù)輸入數(shù)據(jù)(文本、知識(shí)庫(kù)、圖像等類(lèi)型,本文僅聚焦文本類(lèi)型)生成與輸入相關(guān)且自然流暢的問(wèn)題。由于機(jī)器閱讀理解(Machine Reading Comprehension, MRC)和智能問(wèn)答系統(tǒng)的蓬勃發(fā)展,問(wèn)題生成受到了越來(lái)越廣泛的關(guān)注。

本文將根據(jù)時(shí)間線(xiàn)對(duì)問(wèn)題生成的相關(guān)研究進(jìn)行梳理,并在文末介紹了一些個(gè)人認(rèn)為有價(jià)值的研究方向。

傳統(tǒng)的問(wèn)題生成依賴(lài)于人工設(shè)計(jì)的規(guī)則和模版將陳述句轉(zhuǎn)換為疑問(wèn)句,這樣的方法需耗費(fèi)大量人力且依賴(lài)于深層的語(yǔ)法知識(shí),泛化性能和可擴(kuò)展能力較差。

使用深度學(xué)習(xí)方法進(jìn)行問(wèn)題生成最早在 2017 年被提出。Learning to Ask: Neural Question Generation for Reading Comprehension (ACL 2017)將端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)應(yīng)用于問(wèn)題生成,采用 seq2seq+attention 模型架構(gòu),擺脫了轉(zhuǎn)換規(guī)則與模版的局限,取得了相比于傳統(tǒng)方法更好的性能。另一篇將神經(jīng)網(wǎng)絡(luò)應(yīng)用于 QG 的奠基工作 Neural question generation from text: A preliminary study(EMNLP 2017)在編碼時(shí)額外考慮了答案位置與語(yǔ)法信息,取得了更好的性能。

之后到 2019 年,相關(guān)研究主要以 seq2seq 架構(gòu)為基礎(chǔ),改變模型結(jié)構(gòu)和或使用一些技巧來(lái)提升模型的性能,具體包括以下幾個(gè)方面。

答案編碼

將答案作為輸入來(lái)指導(dǎo)模型生成問(wèn)題時(shí)更關(guān)注答案以提升模型性能,常用方法包括將答案位置作為輸入特征或使用額外的編碼器對(duì)答案編碼。

  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018

  • Improving Neural Question Generation Using Answer Separation.AAAI, 2019.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

語(yǔ)言特征

將額外的語(yǔ)言特征與詞向量拼接作為輸入來(lái)提升 QG,例如 word case、POS 和 NER 標(biāo)簽等。

  • Automatic Question Generation using Relative Pronouns and Adverbs.ACL, 2018.

  • Learning to Generate Questions by Learning What not to Generate.WWW, 2019.

問(wèn)題類(lèi)型建模

通過(guò)對(duì)問(wèn)題類(lèi)型或疑問(wèn)詞的顯式建模來(lái)改善生成問(wèn)題疑問(wèn)詞預(yù)測(cè)不準(zhǔn)確的問(wèn)題。

  • Question Generation for Question Answering.EMNLP,2017.

  • Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018.

  • Question-type Driven Question Generation.EMNLP, 2019.

段落級(jí)別上下文

利用輸入文本周?chē)南嚓P(guān)上下文增加輸入信息來(lái)提升問(wèn)題生成效果。

  • Harvesting paragraph-level question-answer pairs from wikipedia.ACL, 2018.

  • Leveraging Context Information for Natural Question Generation.ACL, 2018.

  • Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks.EMNLP, 2018.

  • Capturing Greater Context for Question Generation.AAAI, 2020.

內(nèi)容選擇

當(dāng)答案信息不提供給模型時(shí),給定輸入段落,QG 系統(tǒng)需自動(dòng)識(shí)別段落中值得提問(wèn)的部分再生成問(wèn)題。

  • Identifying Where to Focus in Reading Comprehension for Neural Question Generation.EMNLP, 2017.

  • Neural Models for Key Phrase Extraction and Question Generation.ACL Workshop, 2018.

  • A Multi-Agent Communication Framework for Question-Worthy Phrase Extraction and Question Generation.AAAI, 2019.

答案已知時(shí),識(shí)別與答案相關(guān)的內(nèi)容也有利于提升生成問(wèn)題的效果。

  • Improving Question Generation With to the Point Context.EMNLP, 2019.

特定的訓(xùn)練目標(biāo)

通過(guò)優(yōu)化 ground truth 的對(duì)數(shù)似然來(lái)訓(xùn)練模型會(huì)對(duì)生成問(wèn)題的多樣性造成影響,一些工作通過(guò)結(jié)合強(qiáng)化學(xué)習(xí)使特定的獎(jiǎng)勵(lì)最大化來(lái)改善模型訓(xùn)練。

  • Teaching Machines to Ask Questions.IJCAI, 2018.

  • Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model.NeurIPS Workshop, 2019.

  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Exploring Question-Specific Rewards for Generating Deep Questions.COLING, 2020.

  • Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

多任務(wù)學(xué)習(xí)

通過(guò)一些輔助任務(wù)來(lái)提升 QG 的能力,如通過(guò)語(yǔ)言建模來(lái)提升句子表示;通過(guò)復(fù)述生成增加表達(dá)的多樣性;通過(guò)語(yǔ)義匹配和答案位置預(yù)測(cè)來(lái)緩解生成的疑問(wèn)詞不合適和 copy 不相關(guān)詞匯的問(wèn)題。

  • Multi-Task Learning with Language Modeling for Question Generation.EMNLP, 2019.

  • How to Ask Good Questions? Try to Leverage Paraphrases.ACL, 2020.

  • Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring.AAAI, 2020.

多樣性

對(duì)潛在空間(如 VAE)和生成空間(如隨機(jī)采樣)進(jìn)行控制來(lái)提升生成問(wèn)題的多樣性。

  • Variational Attention for Sequence-to-Sequence Models. ICML, 2018.

  • Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs.ACL, 2020.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.

預(yù)訓(xùn)練語(yǔ)言模型提出后,大多方法通過(guò)微調(diào)預(yù)訓(xùn)練模型實(shí)現(xiàn)問(wèn)題生成,進(jìn)一步改善了生成效果,常用模型包括 UniLM、BART、T5 等。

  • Unified Language Model Pre-training for Natural Language Understanding and Generation.NeurIPS, 2019.

  • UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training.arXiv, 2020.

  • ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation.IJCAI, 2020.(SOTA)

此后,相關(guān)研究工作大多聚焦于問(wèn)題生成在其他任務(wù)上的應(yīng)用,不再通過(guò)修改模型提升生成效果,而是把問(wèn)題生成作為整個(gè)系統(tǒng)的一部分直接使用。

數(shù)據(jù)增強(qiáng)

問(wèn)題生成最直接的應(yīng)用就是為問(wèn)答模型或檢索模型提供更多的訓(xùn)練數(shù)據(jù),降低人工標(biāo)注成本,提升模型的性能。

  • Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.

  • Synthetic QA Corpora Generation with Roundtrip Consistency.ACL, 2019.

  • Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering.ACL, 2020.

  • Training Question Answering Models From Synthetic Data.EMNLP, 2020.

  • Embedding-based Zero-shot Retrieval through Query Generation.arXiv, 2020.

  • Towards Robust Neural Retrieval Models with Synthetic Pre-Training.arXiv, 2021.

領(lǐng)域遷移

在目標(biāo)領(lǐng)域生成問(wèn)題/問(wèn)答對(duì)來(lái)進(jìn)一步訓(xùn)練問(wèn)答模型可以提升模型的領(lǐng)域適應(yīng)能力。由于問(wèn)題生成模型學(xué)習(xí)到的是對(duì)知識(shí)點(diǎn)的提問(wèn)方式,相比于問(wèn)答模型擴(kuò)展能力更強(qiáng)(不依賴(lài)于特定領(lǐng)域),因此將在源領(lǐng)域訓(xùn)練好的問(wèn)題生成模型用于目標(biāo)域生成問(wèn)題的質(zhì)量不會(huì)下降太多。

  • End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems.EMNLP, 2020.

  • Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation.ACL 2021.

  • Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval.arXiv, 2021.

OpenQA

開(kāi)放域問(wèn)答系統(tǒng)(OpenQA)通常使用檢索-閱讀架構(gòu)實(shí)現(xiàn),雖在精度方面已取得較好的效果,但閱讀器的線(xiàn)上推理會(huì)非常耗時(shí)。利用問(wèn)題生成模型將文檔轉(zhuǎn)換為常見(jiàn)問(wèn)答對(duì)(FAQ)的形式,線(xiàn)上僅需通過(guò)問(wèn)題間的匹配來(lái)實(shí)現(xiàn)問(wèn)答,保證準(zhǔn)確率的同時(shí)大大提高了效率,提升了開(kāi)放域問(wèn)答模型的實(shí)用性。

  • Open-domain question answering with pre-constructed question spaces.NAACL, 2021.

  • Accelerating real-time question answering via question generation.AAAI, 2021.

  • PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them.arXiv, 2021.

事實(shí)檢查

通過(guò)問(wèn)答對(duì)生成來(lái)構(gòu)造一致性衡量指標(biāo)或聲明來(lái)進(jìn)行事實(shí)檢查。

  • Improving Factual Consistency of Abstractive Summarization via Question Answering.ACL, 2021.

  • Zero-shot Fact Verification by Claim Generation.ACL, 2021.

其他

近期還有一些其他的相關(guān)研究方向受到了廣泛關(guān)注,如控制生成問(wèn)題的難度、在問(wèn)答式對(duì)話(huà)中生成問(wèn)題、生成更深層次的問(wèn)題(如多跳推理問(wèn)題)、闡明性問(wèn)題生成(Clarification Question Generation)等。

目前問(wèn)題生成仍存在一些尚未解決卻值得研究的問(wèn)題

評(píng)估

目前大多數(shù)模型使用 BLEU、ROUGE、METETOR 等自動(dòng)評(píng)估指標(biāo)對(duì)生成的問(wèn)題進(jìn)行評(píng)價(jià),這些指標(biāo)是對(duì)生成文本與參考文本重合程度的度量,最先用于機(jī)器翻譯、摘要生成等任務(wù),適用于相對(duì)確定的長(zhǎng)文本生成的質(zhì)量評(píng)估,對(duì)于問(wèn)題這種多樣且短小的文本并不是太合適。但是人工評(píng)估又耗時(shí)耗力。

目前也有一些針對(duì)評(píng)估的研究工作,主要思路是將主觀的人工評(píng)估指標(biāo)數(shù)學(xué)化,比如可回答性、語(yǔ)義、詞匯多樣性等。

  • Towards a Better Metric for Evaluating Question Generation Systems.EMNLP, 2018.

  • On the Importance of Diversity in Question Generation for QA.ACL, 2020.

  • Evaluating for Diversity in Question Generation over Text.arXiv, 2020.

為問(wèn)題生成模型設(shè)計(jì)合適的評(píng)估指標(biāo)可以進(jìn)一步促進(jìn)模型的性能提升。

一致性

模型生成的問(wèn)答對(duì)不能保證抽取的答案可以作為生成問(wèn)題的合適答案,存在事實(shí)錯(cuò)誤、內(nèi)容不相關(guān)等情況。目前做法是通過(guò)添加過(guò)濾模型(常用的為問(wèn)答模型)過(guò)濾掉不一致的問(wèn)答對(duì)。探索如何保證生成問(wèn)答對(duì)的一致性是值得思考的問(wèn)題。

多樣性

我們希望模型可以根據(jù)輸入文本從多個(gè)角度對(duì)不同的提問(wèn)點(diǎn)進(jìn)行提問(wèn)。目前工作對(duì)多樣性的研究主要針對(duì)問(wèn)題的表達(dá)多樣性,即同樣語(yǔ)義的問(wèn)題使用不同的問(wèn)法。由于現(xiàn)有數(shù)據(jù)集標(biāo)注不充分,針對(duì)多個(gè)提問(wèn)點(diǎn)的生成模型的訓(xùn)練、對(duì)生成問(wèn)題覆蓋度和多樣性的評(píng)估均是難以解決的問(wèn)題。

非事實(shí)問(wèn)題生成

目前研究主要集中于事實(shí)性問(wèn)題生成,問(wèn)題對(duì)應(yīng)的答案通常為命名實(shí)體或簡(jiǎn)短的片段。然而在許多領(lǐng)域非事實(shí)問(wèn)題或開(kāi)放式問(wèn)題占比很大,因此非事實(shí)問(wèn)題生成十分值得研究。此類(lèi)問(wèn)題對(duì)應(yīng)的答案為多個(gè)句子或片段,因此生成問(wèn)題需更好地把握答案與文章的整體含義,更具有挑戰(zhàn)性。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀


#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

·

總結(jié)

以上是生活随笔為你收集整理的浅谈问题生成(Question Generation)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。