论文浅尝 | 面向自动问题生成的跨语言训练
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。
來源:ACL 2019
鏈接:https://128.84.21.199/pdf/1906.02525.pdf
?
動機
現有問題生成方法需要大量的“文本-問題”有標注數據對作為訓練數據集,對于小語種語言(或缺少有標注數據的語言),有標注數據的缺少是無法實現高質量問題生成的主要原因。從上述因素出發,作者的動機是:利用已有大規模標注數據集(例如英文問題生成數據集,文中描述為 secondary language),用于提升小語種(文中稱為 primary language)問題生成模型的性能。
?
貢獻
1.? 提出了一種利用大規模 secondary language 數據提升 primary language問題生成的模型
2.?? 驗證上述模型在印度語與中文問題生成的性能.
3. 使用上述模型構建了“文本-問題”形式的印度語問題生成數據集,命名為HiQuAD.
?
方法
基本概述:
1.????使用無監督模型,將單語primary與secondary文本訓練編碼到一個共享潛在空間中.
2.????基于上述編碼結果,使用大規模 secondary language的問題生成數據以及小規模primary language問題生成數據,用于訓練一個有監督模型(Seq2Seq),從而提升primary language的問題生成.
圖1問題生成模型框架
模型概述(對照方法基本概述):
模型框架由(左→右)編碼-解碼兩個主要層次構成(原文描述為兩個編碼器和兩個解碼器構成):
編碼層包含兩個子層:
1.????第一層為獨立的兩個單語編碼器,分別用于primary(參數下標為 pri)及secondary(參數下標為 sec) language的初編碼,W_E/W_D分別表示編碼/解碼的權重參數;
2.????第二層為融合編碼器(兩種語言共享編碼權重參數),用于將primary及secondary language的初編碼結果融合到共享編碼空間中;
解碼層也包含兩個子層:
1.? 第三層共享雙語權重參數的解碼器;
2.? 第四層為分別用于primary及secondary language的單語解碼器;
?
方法細節說明
1.????過程細節:
無監督編碼過程(作者稱為無監督預訓練)算法如下圖所示:
????? 其中,x_p/x_s 分別表示 primary/secondary 對應的句子,算法包含三個步驟(三個步驟的目的均是通過訓練調整模型 W_E/W_D 參數):
1) 訓練編碼器,用于將帶有噪聲的 重構為 x_p/x_s(共享編碼器的特性);
2) 使用關聯的編碼-解碼器將 x_p/x_s 翻譯為;
3) 利用步驟2中得到的譯文結果 參與訓練新的翻譯模型;x_p/x_s 將用于下一步的有監督問題生成算法;
?
問題生成過程算法如下圖所示:
?
1) 使用預訓練部分得到的權重參數作為問題生成模型的初始參數
2) 使用 primary/secondary 數據分別訓練對應語言的生成模型(通過 secondary 語言的 QG 訓練過程對共享編碼/解碼的權重參數進行微調,從而提升 primary 語言的 QG 性能)
?
2.????技術細節:
1) 本文使用的編碼/解碼器模型基于 Transformer 模型(作者表示相對RNN編碼模型,在翻譯任務中,Transformer 模型效果更好),不同的是,作者將位置信息也加入編碼中,并參照雙向 RNN 的做法,從兩個序列輸入方向分別對文本進行編碼處理。
2) 去噪編碼(預訓練算法策略)采用 ‘UNSUPERVISED NEURALMACHINE TRANSLATION’一文類似的策略(如下圖所示),通過共享編碼,而后單語解碼,可以實現對單語文本的重構(去噪)。與他們不同的是,本文作者在共享編碼之前先對兩種語言單獨進行初編碼,其次是作者使用 Transformer 替換 RNN 編碼/解碼。
3) 在訓練問題生成模型時,所使用的詞表利用BPE方法做子字化(subword unit)處理,使詞表的覆蓋能力更強,減少OOV情況的同時縮小詞表規模(作者表示直接使用原始詞表將出現內存不足的錯誤)
?
實驗
數據說明:
HiQuAD 數據集說明
作者構建的HiQuAD包含6555個‘問題-答案’對,來自于1334個文本段落(原始來源為Dharampal Books),為了構建“文本-問題”對,對于給定的問題,作者首先從段落中選取答案中的首詞,然后抽取出對應的整句。
其他實驗使用到的數據集說明:
Primary:印度;Secondary:英語
IITB 印度語單語數據集:作者從中抽取了93000個句子作為實驗用單語文本(用于預訓練階段)
IITB 印度語-英語平行語料:作者從中抽取了100000個句對用于對預訓練結果進行微調,抽取規則確保每個句子長度大于10
?
Primary:中文;Secondary:英語
DuReader 中文單語數據集:規模為8000
News Commentary Dataset 中英平行語料:包含91000的中英平行語料
?
SQuAD英文問答數據集:包含70484規模的“文本-問題”對
?
實驗方案:
增量模型說明
1.? Transformer:直接使用小規模問題生成訓練集訓練得到生成模型;
2. Transformer+pretraining:使用單語數據對編碼解碼模型進行預訓練后,將得到權重參數作為問題生成模型的初始參數;
3.?????CLQG:使用雙語數據預訓練/問題生成的 Transformer+ pretraining;
4. CLQG+parallel:預訓練之后,使用平行語料對權重參數進行進一步微調的CLQG;
?
評價指標說明(均是機器翻譯相關指標,得分越高代表系統性能越好)
1.????Bleu
2.????ROUGE-L
3.????METEOR
?
實驗結果
在印度語的問題生成實驗中,CLQG+parallel 模型均取得了最優結果,但是在中文 QG 實驗結果上,增量模型的效果并不突出,但整體上能夠反映出英語語料對于中文問題生成能夠帶來提高。
?
分析
1. 利用資源豐富的語料+跨語言表示學習,能夠幫助提升小規模語料的表示學習效果,但是,作者并沒有驗證在同等情況下,該方法對英語(大規模語料)編碼效果的影響
2.? HiQuAD 語料的構建過程并不明確,從實驗上看,小語種語言問題的生成依然需要小規模的 QG 標注語料參與訓練,但是作者對于HiQuAD的構建過程僅描述了獲得問題之后文本的獲取方式。但問題本身的來源,是否使用了小規模的印度語QG標注數據等細節,未做說明
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
?
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向自动问题生成的跨语言训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICML2020 | 通过
- 下一篇: 领域应用 | 英文抗生素药物医学知识图