當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 用于开放领域的问题生成

發布時間：2024/7/5 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 用于开放领域的问题生成小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者 | 黃焱暉
單位 | 東南大學碩士
研究方向 | 自然語言處理，知識圖譜

Learning to AskQuestions in Open-domain Conversational Systems with Typed Decoders

動機

本文的問題生成用于開放領域的問題生成，與傳統的問題生成不同的是，在開放領域對話場景中更加關注于人機交互的互動性和持久性，挖掘對話中的相關信息，以推動互動繼續下去。換句話說，生成問題需要理解到對話的主題，并圍繞該主題進行提問，傳統QG任務中，一般會給定目標答案，然后圍繞該答案生成問題。另一方面，本文認為一個好的問題是由疑問詞、主題詞和普通詞語三種類型詞組成，主題詞確定生成問題的中心，疑問詞確定問題類型，普通詞使整個問題表述像一個自然語句。

實現

本文生成問題基于框架，使用進行編碼

decoder分為soft-decoder和hard-decoder兩種。按照作者的設定，生成問題的詞語可以被分成主題詞（topic word)、疑問詞（interrogative word）和一般詞（ordinary word）三類，

soft-decoder soft-decoder

soft-decoder在預測下一個詞語的時候，根據下述式子：

即輸入編碼得到context vector X，再根據已預測序列，可以得到下一個詞語type的分布，然后每個不同的type對應有不同的詞語分布，所以將一個詞語不同type可能得到的詞語分布相加，得到下一個詞語的最終分布，如下圖所示：

hard-decoder

而hard-decoder不同的是，將生成問題的每個詞語都強制歸屬到某一個type，而不是像soft-decoder中，詞語的type是一個隱狀態，詞語可以是所有type中任何一個。這樣，在hard-decoder中，下一個詞語的概率分布如下式所示：

認定下一個詞語分布概率最高的作為其類型。因為操作使得反向傳播無法進行，文中使用來實現解決該問題，最終下一個詞語概率分布如下式所示：

整個流程如下圖所示：

Topic Word Prediction

而對于如何使得生成問題做到圍繞某個主題，訓練的時候，將生成問題中的名詞和動詞作為主題詞，在測試的時候文中使用PMI進行了主題詞預測，對一個給定輸入，最多得到20 個主題相關的詞，然后生成問題需要包含這些主題詞中至少一個。

思考

本文認定一個好的問題需要包含疑問詞、主題詞和一般詞三部分，假設生成問題詞語是符合一個類型分布，然后每個類型有一個詞語的分布，將以往傳統文本生成的預測過程拆分成兩步，使用soft-decoder和hard-decoder兩種解碼方法，驗證在開放對話領域的問題生成效果，最終通過實驗驗證，hard-decoder的效果較soft-decoder的效果好一點，原因可能是soft-decoder解碼過程中，詞語的type僅僅是一個隱藏狀態，模型實際情況下，隱含詞語的類型是不是合理，真的只有假設的三類不得而知，與傳統的解碼器相比僅僅是多了幾層網絡，模型復雜點，并不能保證作者的經驗知識，生成的問題符合每個詞語都是疑問詞、主題詞、一般詞這三類。而hard-decoder真正保證生成的中間過程每個詞都屬于假定的某一類，符合作者認為的一個好的問題該具備的特征。

至于作者考慮的對話場景中的問題生成需要與輸入主題相關，保證對話的交互性和持久性。這點的確是在對話場景中需要注意的點，但是在實現上通過保證生成問題的主題詞、疑問詞、一般詞概率分布更高（Φ2 ?= ∑ ? log P (tyt ?= t~y**t ∣y<t, X)），即語法表述更規范，并沒有具有針對性的解決生成問題與輸入之間的主題關聯性，雖然最后評測的時候通過人工評測生成問題與輸入的主題相關性，并取得較好的分數，但整個方法實現并不能解釋該效果的由來。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 用于开放领域的问题生成的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | AAAI2020 - 基于
下一篇：论文浅尝 | 基于多模态关联数据嵌入的知