日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 面向自动问题生成的跨语言训练

發布時間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 面向自动问题生成的跨语言训练 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。


來源:ACL 2019

鏈接:https://128.84.21.199/pdf/1906.02525.pdf

?

動機

現有問題生成方法需要大量的“文本-問題”有標注數據對作為訓練數據集,對于小語種語言(或缺少有標注數據的語言),有標注數據的缺少是無法實現高質量問題生成的主要原因。從上述因素出發,作者的動機是:利用已有大規模標注數據集(例如英文問題生成數據集,文中描述為 secondary language),用于提升小語種(文中稱為 primary language)問題生成模型的性能。

?

貢獻

1.? 提出了一種利用大規模 secondary language 數據提升 primary language問題生成的模型

2.?? 驗證上述模型在印度語與中文問題生成的性能.

3. 使用上述模型構建了“文本-問題”形式的印度語問題生成數據集,命名為HiQuAD.

?

方法

基本概述:

1.????使用無監督模型,將單語primary與secondary文本訓練編碼到一個共享潛在空間中.

2.????基于上述編碼結果,使用大規模 secondary language的問題生成數據以及小規模primary language問題生成數據,用于訓練一個有監督模型(Seq2Seq),從而提升primary language的問題生成.

圖1問題生成模型框架

模型概述(對照方法基本概述):

模型框架由(左→右)編碼-解碼兩個主要層次構成(原文描述為兩個編碼器和兩個解碼器構成):

編碼層包含兩個子層:

1.????第一層為獨立的兩個單語編碼器,分別用于primary(參數下標為 pri)及secondary(參數下標為 sec) language的初編碼,W_E/W_D分別表示編碼/解碼的權重參數;

2.????第二層為融合編碼器(兩種語言共享編碼權重參數),用于將primary及secondary language的初編碼結果融合到共享編碼空間中;

解碼層也包含兩個子層:

1.? 第三層共享雙語權重參數的解碼器;

2.? 第四層為分別用于primary及secondary language的單語解碼器;

?

方法細節說明

1.????過程細節:

無監督編碼過程(作者稱為無監督預訓練)算法如下圖所示:

????? 其中,x_p/x_s 分別表示 primary/secondary 對應的句子,算法包含三個步驟(三個步驟的目的均是通過訓練調整模型 W_E/W_D 參數):

1) 訓練編碼器,用于將帶有噪聲的 重構為 x_p/x_s(共享編碼器的特性);

2) 使用關聯的編碼-解碼器將 x_p/x_s 翻譯為;

3) 利用步驟2中得到的譯文結果 參與訓練新的翻譯模型;x_p/x_s 將用于下一步的有監督問題生成算法;

?

問題生成過程算法如下圖所示:

?

1) 使用預訓練部分得到的權重參數作為問題生成模型的初始參數

2) 使用 primary/secondary 數據分別訓練對應語言的生成模型(通過 secondary 語言的 QG 訓練過程對共享編碼/解碼的權重參數進行微調,從而提升 primary 語言的 QG 性能)

?

2.????技術細節:

1) 本文使用的編碼/解碼器模型基于 Transformer 模型(作者表示相對RNN編碼模型,在翻譯任務中,Transformer 模型效果更好),不同的是,作者將位置信息也加入編碼中,并參照雙向 RNN 的做法,從兩個序列輸入方向分別對文本進行編碼處理。

2) 去噪編碼(預訓練算法策略)采用 ‘UNSUPERVISED NEURALMACHINE TRANSLATION’一文類似的策略(如下圖所示),通過共享編碼,而后單語解碼,可以實現對單語文本的重構(去噪)。與他們不同的是,本文作者在共享編碼之前先對兩種語言單獨進行初編碼,其次是作者使用 Transformer 替換 RNN 編碼/解碼。

3) 在訓練問題生成模型時,所使用的詞表利用BPE方法做子字化(subword unit)處理,使詞表的覆蓋能力更強,減少OOV情況的同時縮小詞表規模(作者表示直接使用原始詞表將出現內存不足的錯誤)

?

實驗

數據說明:

HiQuAD 數據集說明

作者構建的HiQuAD包含6555個‘問題-答案’對,來自于1334個文本段落(原始來源為Dharampal Books),為了構建“文本-問題”對,對于給定的問題,作者首先從段落中選取答案中的首詞,然后抽取出對應的整句。

其他實驗使用到的數據集說明:

Primary:印度;Secondary:英語

IITB 印度語單語數據集:作者從中抽取了93000個句子作為實驗用單語文本(用于預訓練階段)

IITB 印度語-英語平行語料:作者從中抽取了100000個句對用于對預訓練結果進行微調,抽取規則確保每個句子長度大于10

?

Primary:中文;Secondary:英語

DuReader 中文單語數據集:規模為8000

News Commentary Dataset 中英平行語料:包含91000的中英平行語料

?

SQuAD英文問答數據集:包含70484規模的“文本-問題”對

?

實驗方案:

增量模型說明

1.? Transformer:直接使用小規模問題生成訓練集訓練得到生成模型;

2. Transformer+pretraining:使用單語數據對編碼解碼模型進行預訓練后,將得到權重參數作為問題生成模型的初始參數;

3.?????CLQG:使用雙語數據預訓練/問題生成的 Transformer+ pretraining;

4. CLQG+parallel:預訓練之后,使用平行語料對權重參數進行進一步微調的CLQG;

?

評價指標說明(均是機器翻譯相關指標,得分越高代表系統性能越好)

1.????Bleu

2.????ROUGE-L

3.????METEOR

?

實驗結果

在印度語的問題生成實驗中,CLQG+parallel 模型均取得了最優結果,但是在中文 QG 實驗結果上,增量模型的效果并不突出,但整體上能夠反映出英語語料對于中文問題生成能夠帶來提高。

?

分析

1. 利用資源豐富的語料+跨語言表示學習,能夠幫助提升小規模語料的表示學習效果,但是,作者并沒有驗證在同等情況下,該方法對英語(大規模語料)編碼效果的影響

2.? HiQuAD 語料的構建過程并不明確,從實驗上看,小語種語言問題的生成依然需要小規模的 QG 標注語料參與訓練,但是作者對于HiQuAD的構建過程僅描述了獲得問題之后文本的獲取方式。但問題本身的來源,是否使用了小規模的印度語QG標注數據等細節,未做說明

?


OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

?

總結

以上是生活随笔為你收集整理的论文浅尝 | 面向自动问题生成的跨语言训练的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。