當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

發(fā)布時(shí)間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理：譚亦鳴，東南大學(xué)博士生

來源：EACL‘21

鏈接：https://aclanthology.org/2021.eacl-main.284.pdf

概述

本文關(guān)注將語言模型（LM）視作一個(gè)知識(shí)庫，然后用于解決例如句子填空這樣的NLP任務(wù)，這個(gè)做法在單語言（英語）取得了不錯(cuò)的效果。因此在這篇論文里，作者著重關(guān)注了以m-BERT為代表的多語言語言模型是否也能作為多語言KG適用于多語言NLP場景。他將單語LAMA數(shù)據(jù)集翻譯為53種語言，并使用m-BERT作為知識(shí)庫進(jìn)行了實(shí)驗(yàn)評(píng)估，著重關(guān)注了m-BERT的可用性，和在不同語言上的性能差異性。從實(shí)驗(yàn)效果來看，首先m-BERT在部分語言上能夠?qū)崿F(xiàn)和單語LAMA實(shí)驗(yàn)類似的效果，另一方面，m-BERT雖然基于104weikipedia訓(xùn)練得到，但是依然存在語言偏置

背景與動(dòng)機(jī)

單語上，使用預(yù)訓(xùn)練模型作為知識(shí)庫（不做微調(diào)的情況下）來完成一些自然語言處理任務(wù)例如簡單的文本生成，模板填空等，已經(jīng)被證明是有效的。既然LAMA在英語但遇上已經(jīng)取得了許多研究進(jìn)展，作者對(duì)多語言預(yù)訓(xùn)練模型上是否也同樣有效產(chǎn)生好奇，論文主要圍繞三個(gè)問題進(jìn)行展開：

1.M-BERT是否也能被當(dāng)作一個(gè)多語言知識(shí)庫來使用，這對(duì)于方法發(fā)展的多樣性和可用性非常重要2.M-BERT作為知識(shí)庫是否在不同語言上有性能差異，或者它不受語言不同的影響3.M-BERT相比單語模型包含了更多語言（104種）的訓(xùn)練數(shù)據(jù)，這些是否會(huì)在性能上帶來額外的影響

貢獻(xiàn)

作者總結(jié)論文的主要貢獻(xiàn)如下：

1.論文建立了一個(gè)多語言版本（覆蓋53種語言）的TREx以及GooleRE2.提出了一種“實(shí)體類型+模板”的模式替換傳統(tǒng)“挖空查詢”，并證明它具有更好的效果3.實(shí)驗(yàn)論證了M-BERT在不同語言上回答查詢的性能差別明顯4.論文論證了M-BERT作為知識(shí)庫應(yīng)用時(shí)存在語言偏向，例如當(dāng)查詢由意大利語構(gòu)成，那么查詢得到的實(shí)體往往也是意大利語的5.跨語言池化預(yù)測能夠大幅提升實(shí)驗(yàn)性能，甚至優(yōu)于英語單語BERT

數(shù)據(jù)

作者沿用了LAMA的做法，也使用了TREx以及GoogleRE這兩個(gè)數(shù)據(jù)集，兩者都是由三元組構(gòu)成。LAMA的思路是使用模板直接在預(yù)訓(xùn)練模型種查詢?nèi)M的內(nèi)容，例如對(duì)于三元組(巴黎，首都，法國)，查詢模板為：巴黎是___的首都。

TREx涵蓋34,039個(gè)三元組，涉及41種關(guān)系類型，GoogleRE則包含5528三元組以及3種關(guān)系，每個(gè)關(guān)系對(duì)應(yīng)的模板都是由人工制作的。

在LAMA的基礎(chǔ)上，作者使用谷歌翻譯將其模板翻譯為其他語言，通過確定模板插槽是否被準(zhǔn)確保留來驗(yàn)證翻譯的準(zhǔn)確性，并在必要的部分進(jìn)行后處理修正。

M-BERT支持104種語言，谷歌翻譯覆蓋了其中的77種，維基百科和谷歌知識(shí)圖譜都沒有支持所有語言的實(shí)體翻譯，并且也不是所有實(shí)體都被包含在知識(shí)圖譜中。對(duì)于英語，作者找到共計(jì)37,498個(gè)三元組。平均下來，34%的三元組可以被翻譯。最終構(gòu)建得到mLAMA，其統(tǒng)計(jì)信息如圖1。

實(shí)驗(yàn)

作者在實(shí)驗(yàn)中驗(yàn)證了兩種查詢構(gòu)建模式：

1.沿用Petroni等人的做法，使用帶有插槽的模板例如：巴黎是___的首都2.增加對(duì)于插槽實(shí)體的類型約束，從而解決部分歧義問題例如：湯姆出生在_____，插槽處即可能是地點(diǎn)，也可能是年份，添加類型約束解決了這個(gè)問題。

對(duì)于插槽本身，作者分析了兩種情況：

1.限定插槽為單個(gè)token，反應(yīng)在模板上就是 “湯姆出生在[_____]”2.設(shè)置插槽為多個(gè)token，即 “湯姆出生在[__][_]” 多個(gè)插槽的情況下，生成過程可以描述為連續(xù)的條件概率如下：

其中，e是實(shí)體，t是構(gòu)成e的token序列

主要實(shí)驗(yàn)結(jié)果：

OpenKG

OpenKG（中文開放知識(shí)圖譜）旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包，并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：领域应用 | 完备的娱乐行业知识图谱库如
下一篇：论文浅尝 | HEAD-QA: 一个面向