论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识
筆記整理:譚亦鳴,東南大學(xué)博士生
來源:EACL‘21
鏈接:https://aclanthology.org/2021.eacl-main.284.pdf
概述
本文關(guān)注將語言模型(LM)視作一個(gè)知識(shí)庫,然后用于解決例如句子填空這樣的NLP任務(wù),這個(gè)做法在單語言(英語)取得了不錯(cuò)的效果。因此在這篇論文里,作者著重關(guān)注了以m-BERT為代表的多語言語言模型是否也能作為多語言KG適用于多語言NLP場景。他將單語LAMA數(shù)據(jù)集翻譯為53種語言,并使用m-BERT作為知識(shí)庫進(jìn)行了實(shí)驗(yàn)評(píng)估,著重關(guān)注了m-BERT的可用性,和在不同語言上的性能差異性。從實(shí)驗(yàn)效果來看,首先m-BERT在部分語言上能夠?qū)崿F(xiàn)和單語LAMA實(shí)驗(yàn)類似的效果,另一方面,m-BERT雖然基于104weikipedia訓(xùn)練得到,但是依然存在語言偏置
背景與動(dòng)機(jī)
單語上,使用預(yù)訓(xùn)練模型作為知識(shí)庫(不做微調(diào)的情況下)來完成一些自然語言處理任務(wù)例如簡單的文本生成,模板填空等,已經(jīng)被證明是有效的。既然LAMA在英語但遇上已經(jīng)取得了許多研究進(jìn)展,作者對(duì)多語言預(yù)訓(xùn)練模型上是否也同樣有效產(chǎn)生好奇,論文主要圍繞三個(gè)問題進(jìn)行展開:
1.M-BERT是否也能被當(dāng)作一個(gè)多語言知識(shí)庫來使用,這對(duì)于方法發(fā)展的多樣性和可用性非常重要2.M-BERT作為知識(shí)庫是否在不同語言上有性能差異,或者它不受語言不同的影響3.M-BERT相比單語模型包含了更多語言(104種)的訓(xùn)練數(shù)據(jù),這些是否會(huì)在性能上帶來額外的影響
貢獻(xiàn)
作者總結(jié)論文的主要貢獻(xiàn)如下:
1.論文建立了一個(gè)多語言版本(覆蓋53種語言)的TREx以及GooleRE2.提出了一種“實(shí)體類型+模板”的模式替換傳統(tǒng)“挖空查詢”,并證明它具有更好的效果3.實(shí)驗(yàn)論證了M-BERT在不同語言上回答查詢的性能差別明顯4.論文論證了M-BERT作為知識(shí)庫應(yīng)用時(shí)存在語言偏向,例如當(dāng)查詢由意大利語構(gòu)成,那么查詢得到的實(shí)體往往也是意大利語的5.跨語言池化預(yù)測能夠大幅提升實(shí)驗(yàn)性能,甚至優(yōu)于英語單語BERT
數(shù)據(jù)
作者沿用了LAMA的做法,也使用了TREx以及GoogleRE這兩個(gè)數(shù)據(jù)集,兩者都是由三元組構(gòu)成。LAMA的思路是使用模板直接在預(yù)訓(xùn)練模型種查詢?nèi)M的內(nèi)容,例如對(duì)于三元組(巴黎,首都,法國),查詢模板為:巴黎是___的首都。
TREx涵蓋34,039個(gè)三元組,涉及41種關(guān)系類型,GoogleRE則包含5528三元組以及3種關(guān)系,每個(gè)關(guān)系對(duì)應(yīng)的模板都是由人工制作的。
在LAMA的基礎(chǔ)上,作者使用谷歌翻譯將其模板翻譯為其他語言,通過確定模板插槽是否被準(zhǔn)確保留來驗(yàn)證翻譯的準(zhǔn)確性,并在必要的部分進(jìn)行后處理修正。
M-BERT支持104種語言,谷歌翻譯覆蓋了其中的77種,維基百科和谷歌知識(shí)圖譜都沒有支持所有語言的實(shí)體翻譯,并且也不是所有實(shí)體都被包含在知識(shí)圖譜中。對(duì)于英語,作者找到共計(jì)37,498個(gè)三元組。平均下來,34%的三元組可以被翻譯。最終構(gòu)建得到mLAMA,其統(tǒng)計(jì)信息如圖1。
實(shí)驗(yàn)
作者在實(shí)驗(yàn)中驗(yàn)證了兩種查詢構(gòu)建模式:
1.沿用Petroni等人的做法,使用帶有插槽的模板例如:巴黎是___的首都2.增加對(duì)于插槽實(shí)體的類型約束,從而解決部分歧義問題例如:湯姆出生在_____,插槽處即可能是地點(diǎn),也可能是年份,添加類型約束解決了這個(gè)問題。
對(duì)于插槽本身,作者分析了兩種情況:
1.限定插槽為單個(gè)token,反應(yīng)在模板上就是 “湯姆出生在[_____]”2.設(shè)置插槽為多個(gè)token,即 “湯姆出生在[__][_]” 多個(gè)插槽的情況下,生成過程可以描述為連續(xù)的條件概率如下:
其中,e是實(shí)體,t是構(gòu)成e的token序列
主要實(shí)驗(yàn)結(jié)果:
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 完备的娱乐行业知识图谱库如
- 下一篇: 论文浅尝 | HEAD-QA: 一个面向