论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge
論文解讀:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge
論文下載:https://arxiv.org/pdf/2009.05831v2.pdf
??本文旨在從非結構化文本中抽取常識知識,利用語境的常識知識輔助提升MRC
相關工作:
??常識問答(Commonsense Question Answering) 一般是指對常識知識理解的基礎上根據給定的問題進行回答。例如多項選擇題“鳥兒在__上飛(海/地/天)”,根據我們的常識可以知道鳥兒是在天上飛。這類問答不同于垂直領域問答,常識知識很難通過一般的語言模型準確預測,需要有專門的常識知識庫來輔助完成。
??現如今常識問答多借助于常識知識庫(Commonsense Knowledge Graph, CSKG),一般地會將知識庫中的三元組 ( h , r , t ) (h, r, t) (h,r,t) (分別表示頭實體、關系、尾實體)生成合成樣本(synthetic data),并通過預訓練的方式讓模型學習到常識知識。基于CSKG一般都是將三元組轉換為一個文本。本文不同于這些方法,其直接從正常的對話中抽取常識知識。
動機:
- 常識知識通常表現為三元組,包括兩個實體(phrase)和關系。如果使用預定義的關系,通常indispensable,因此我們考慮不顯式使用預定義的關系,而使得實體關系變得隱式化。一種方法是將同時存在這兩個實體的文本作為實體關系的約束,因此我們將實體對以及對應的文本統稱為contextualized knowledge;
- 將口頭(verbal)和非口頭(nonverbal)信息作為phrase pair
- scripts可以作為抽取語境常識知識的來源;
- 提出簡單但有效的兩階段fine-tuning策略來使用大規模弱標注語料;
Contextualized Commonsense Knowledge Extraction
??verbal和nonverbal的信息都對面對面交流很有用。本文旨在介紹如何抽取verbal-nonverbal pairs并抽取對應的context。選用的script為電影電視節目對話稿,并抽取四種類型的語境知識。最終得到場景知識,記做 ( v , c , n ) (v, c, n) (v,c,n) ,其中 v v v 和 n n n 表示phrase、 c c c 表示context。可以通過下面的例子來理解這個任務:
Instance Generation
??該部分考慮如何將抽取到的常識知識 ( v , c , n ) (v, c, n) (v,c,n) 轉化為多項選擇形式,并擴展到其他機器閱讀理解任務(MRC,抽取式問答等)。
??從 c c c 中去掉 n n n,將 v v v 視為question,去掉 n n n 的 c c c 視為reference document, n n n 則視為正確答案。其他錯誤的選項(distractor)則可以通過負采樣方法。每個三元組只生成一個文本。
??基本方法如下圖所示:
- 首先從非結構化語料中(對話)抽取相應的常識知識;
- 然后將常識知識轉換為多項選擇問答模式;
- 對于另外幾個候選項,則通過distractor generation隨機生成;
- 作者提出兩階段微調(two-stage fine-tuning),如上圖,根據抽取的語境常識知識構建的weakly-labeled data,將其與公開數據集C3結合起來訓練模型,然后在第二階段只在C3數據集上訓練;或者先只在weakly-labeled data上訓練,再在C3上訓練。
第一階段(stage1)
??給定一個已標注數據集(labeled data,記做 V V V)和啟發式生成的weakly labeled data(記做 W W W)。將weakly labeled data分為多份,記做 W i W_i Wi?。
??對于每一個 W i W_i Wi?,其與V結合起來形成一個數據集,并在該數據集上訓練一個teacher model,最小化損失函數記做:
??其中 h k ( t ) h_k^{(t)} hk(t)? 表示第 t t t 個數據集的第 k k k 個選項是正確的(取值為1), h h h 為一個one-hot向量。
??根據每一個teacher model T j T_j Tj? 以及初始的 h h h(one-hot向量),通過 λ \lambda λ 加權,均可以得到第 t t t 個樣本第 k k k 個選項的soft label vector:
??基于此,訓練一個student model,最小化 ∑ t ∈ V ∪ W L 2 ( t , θ S ) \sum_{t\in V\cup W}L_2(t,\theta_{\mathcal{S}}) ∑t∈V∪W?L2?(t,θS?)。
??用到了相應的soft label vector,相當于teacher model的結果對student訓練各個樣本時進行了指導。
第二階段(stage2)
??直接將訓練好的student model,在labeled data上微調,最小化目標函數 ∑ t ∈ V L 2 ( t , θ S ) \sum_{t\in V}L_2(t,\theta_{\mathcal{S}}) ∑t∈V?L2?(t,θS?)。
總結
以上是生活随笔為你收集整理的论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dom相关的api操作
- 下一篇: 知识图谱顶会论文(ACL-2022) C