论文浅尝 | 面向 cQA 的跨语言问题检索方法
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)橹R(shí)庫(kù)問(wèn)答。
來(lái)源:WWW2019
鏈接:https://dl.acm.org/citation.cfm?doid=3308558.3313502
???????????
????? 本文提出了一種面向cQA的跨語(yǔ)言問(wèn)題檢索方法,旨在對(duì)于給定的問(wèn)題檢索出其對(duì)應(yīng)另一目標(biāo)語(yǔ)言的相似問(wèn)題或查詢。這個(gè)任務(wù)(跨語(yǔ)言信息檢索)的常規(guī)做法是:1.將給定問(wèn)題翻譯為目標(biāo)語(yǔ)言;2.應(yīng)用單語(yǔ)信息檢索方法完成查詢。這種做法的缺陷在于翻譯可能存在錯(cuò)誤,并傳遞到之后的檢索過(guò)程。針對(duì)這一缺陷,作者基于上述方法提出改進(jìn):1.利用單語(yǔ)cQA數(shù)據(jù)提升翻譯質(zhì)量;2.在現(xiàn)有的神經(jīng)信息檢索模型的訓(xùn)練過(guò)程添加譯回機(jī)制(back-translation),提升模型的魯棒性。
?
貢獻(xiàn)???
??????? 本文貢獻(xiàn)包括以下幾點(diǎn):
1.????研究了technical cQA上的跨語(yǔ)言問(wèn)題檢索方法,并發(fā)現(xiàn)翻譯質(zhì)量是嚴(yán)重影響檢索性能的因素
2.????評(píng)估cQA問(wèn)題檢索中NMT領(lǐng)域適應(yīng)性產(chǎn)生的影響
3.????基于現(xiàn)有的商用MT服務(wù)也可以達(dá)到較好的性能
?
方法
首先對(duì)任務(wù)進(jìn)行一個(gè)描述:
給定一個(gè)輸入問(wèn)題q0和規(guī)模為N的相關(guān)問(wèn)題list Q=q1, q2,…,qN(來(lái)自cQA),目標(biāo)是對(duì)list進(jìn)行重排序,從而找到list中與q0最相關(guān)的問(wèn)題qi。跨語(yǔ)言問(wèn)題檢索的給定問(wèn)題語(yǔ)言為德語(yǔ)(L1),list問(wèn)題語(yǔ)言為英語(yǔ)(L2)。
整體的pipeline如圖1所示,給定問(wèn)題q0首先由一個(gè)NMT神經(jīng)翻譯模型轉(zhuǎn)換為L(zhǎng)2語(yǔ)言,而后經(jīng)過(guò)一個(gè)QR模型將翻譯后的給定問(wèn)題q0和待對(duì)比問(wèn)題qi轉(zhuǎn)換為向量表示,而后通過(guò)余弦相似度衡量?jī)烧叩南嚓P(guān)性。
NMT模型
???? 本文使用Transformer實(shí)現(xiàn)給定問(wèn)題的翻譯,作者使用WMT’13和WMT’18數(shù)據(jù)集訓(xùn)練了英語(yǔ)-德語(yǔ),德語(yǔ)-英語(yǔ)的翻譯模型,包含4.5M的英德technical topic平行語(yǔ)料。作為對(duì)比,作者引入了谷歌翻譯服務(wù)
QR模型
本文QR過(guò)程基于RCNN實(shí)現(xiàn),該方法將循環(huán)單元(unit)與卷積網(wǎng)絡(luò)相融合,將輸入的問(wèn)題q學(xué)習(xí)為一個(gè)修正維度的特征向量表示r,從而用于下一步的相似性計(jì)算。
目標(biāo)函數(shù)方面,作者通過(guò)隨機(jī)產(chǎn)生負(fù)例,構(gòu)建了聯(lián)合損失函數(shù)形式如下:
面向跨語(yǔ)言改進(jìn)
基于合成平行語(yǔ)料的領(lǐng)域神經(jīng)機(jī)器翻譯(In-Domain NMT)
??? 具體做法就是,首先利用當(dāng)前數(shù)據(jù)訓(xùn)練兩個(gè)方向的翻譯系統(tǒng)(英-德,德-英),而后將大規(guī)模領(lǐng)域單語(yǔ)數(shù)據(jù)(英語(yǔ))翻譯為德語(yǔ),從而得到更大規(guī)模的英德領(lǐng)域平行語(yǔ)料,用于德-英翻譯系統(tǒng)性能強(qiáng)化(即譯回方法,back-translation)。由于這里的單語(yǔ)數(shù)據(jù)是本文任務(wù)需要的目標(biāo)語(yǔ)言(英語(yǔ)),即生成的平行語(yǔ)料中即使存在錯(cuò)誤也不在于目標(biāo)語(yǔ)言句子中。因此在譯文生成方面,并不會(huì)嚴(yán)重影響輸出譯文的語(yǔ)法錯(cuò)誤或不通順。
??????? 作者舉了一些例子在表1
? 在 QR 過(guò)程中,back-translation 則用于生成多種問(wèn)題的復(fù)述形式(paraphrase),從而擴(kuò)充問(wèn)題自然語(yǔ)言表達(dá)的多樣性(當(dāng)然也存在翻譯錯(cuò)誤,尤其基于少量數(shù)據(jù)訓(xùn)練得到的Transformer翻譯系統(tǒng)存在大量的噪聲,所以這里作者依賴于翻譯性能更好的谷歌翻譯服務(wù)來(lái)完成)。
???????????
實(shí)驗(yàn)
數(shù)據(jù)集
??????? 表2列舉了本文問(wèn)答實(shí)驗(yàn)數(shù)據(jù)集的一些統(tǒng)計(jì)信息,均來(lái)自technical領(lǐng)域。
模型與Baseline與實(shí)驗(yàn)結(jié)果
作者將實(shí)驗(yàn)分為了單語(yǔ)和跨語(yǔ)言兩組,單語(yǔ)方面主要對(duì)比了QR模型(RCNN,RCNN-A)在添加back-translation數(shù)據(jù)調(diào)優(yōu)之后的性能變化。雙語(yǔ)方面在此基礎(chǔ)上則增加了直接使用谷歌翻譯與自主訓(xùn)練Transformer模型之間的性能對(duì)比。
????? 作者也給出了一些實(shí)例進(jìn)行對(duì)比,如表4,5所示:
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 面向 cQA 的跨语言问题检索方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里P8架构师谈:分布式、集群、负载均衡
- 下一篇: 论文浅尝 | 基于知识库的自然语言理解