當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EMNLP 2021 最新综述：语言模型中的关系性知识

發布時間：2024/10/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 EMNLP 2021 最新综述：语言模型中的关系性知识小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?張義策

單位?|?北哈爾濱工業大學（深圳）

研究方向?|?自然語言處理

論文標題：

Relational World Knowledge Representation in Contextual Language Models: A Review

論文來源：

EMNLP 2021

論文地址：

https://arxiv.org/pdf/2104.05837.pdf

這是 EMNLP 2021 上的一篇綜述，作者來自美國密西根大學。

知識庫與語言模型

以關系三元組為核心的知識庫是目前關系性知識的典型表達方法，其中關系三元組由頭實體、關系和尾實體構成，如（瑪麗居里，出生于，華沙）。

以知識庫的方式保存關系性知識的優點是精確、可解釋性強；
但其缺點也是明顯的，需要定義復雜的實體和關系類型，靈活性不夠，不夠全面。

而很多工作也表明，語言模型攜帶了一些關系性的知識。

Language Models as Knowledge Bases?^[1]

于是兩個方面問題自然地出現了：

語言模型保存了多少關系性的知識？如何從語言模型中推理出這些知識？
是否可以向語言模型中注入更多的關系性知識？

回答以上兩方面問題便是這篇文章的主要內容了，其中問題 2 中注入關系性知識又分為實體級別的知識和關系級別的知識。下面本文依次對這三部分內容進行簡要敘述。

推理語言模型中的知識

讀者不禁會思考：為什么通過 language modeling 訓練的語言模型中會存在關系性的知識呢？文章給出了答案：這是因為維基百科中的很多文本都是關系性知識的陳述，而維基百科又是典型的預訓練語料。?

正如前面提到的，推理語言模型中知識的典型方法就是完形填空 (cloze prompting)，即將帶空位的自然語言陳述輸入到 BERT 中，然后讓模型預測空位中的單詞。可以看到，在該方法中，如何將關系性知識轉化為陳述句便是關鍵了。

人工模板：典型的方法便是針對某個關系，人工撰寫一個模板，如“出生于”對應的模板為“[marie curie] was born in [warsaw]”；“職業”對應的模板為“[obama] worked as a [president]”。?

自動模板：人工模板的劣勢是顯然的，耗時耗力、也不一定好使。于是很多工作研究了如何自動產生模板。以Jiang et al(2020) [2] 為例，對于某個關系實例 (x, r, y)，它首先識別維基百科中同時包含 x 和 y 的句子，然后將句子中 x 和 y 去掉，變成模板。這些針對關系 r 的模板通過重構（如翻譯兩次），生成更多模板。然后從這些候選模板中，選擇性能最好的模板。下面是一些模板的例子。當然，自動模板的方法中也有不同流派，這里不展開了。

除了完形填空之外，句子打分（statement scoring）也是一種典型的抽取知識方法。我想該方法應該是主要是面向生成模型的。

注入實體級別的知識

entity-level masking 是最簡單直接的方法，即在對句子進行 masking 的時候，將實體作為一個整體進而選擇 mask 或者不 mask。此外，也可以增加實體對應的 mask 概率，讓模型更關注實體信息。有工作 [3][4] 稱之為 Salient Span Masking。

將實體視作 token 當然我們也可以將實體整體作為一個 token。在 E-BERT [5] 中，作者將實體對應的 token 合并為一個 token，如下圖中的 Jean_Marais；作者發現將合并后的 token 和原本的 tokens 一起保留下來 (E-BERT-concat)，效果會比較好。但是該方法帶來的一個明顯問題是詞表的規模大大增加了（30k->6m）。

上面兩種方法可以說都是在輸入層面對 mask language modeling 進行改動。也有研究者通過增加其他訓練目標的方式，在預訓練階段注入實體級別的知識，典型的兩種為：

entity replacement detection [6]：將句子中的實體替換為同類型的其他實體，然后讓模型預測替換是否存在。這有些類似 ELECTRA [7] 中的 replaced token detection。

entity linking[8]：實體鏈接是指將文本中的字符映射到知識庫對應的實體上。將該任務加入到預訓練過程中，相應的標注便是來源于百科文本中指向其他詞條的鏈接。

entities as embeddings 以 transE [9] 為代表的知識嵌入（knowledge embeddings）可以為知識圖譜中的實體的得到一個表示。一些工作將這些實體表示和 BERT 中的 token 表示結合在一起。?

align & fusion：Peters et al (2019)[10] 通過 word-to-entity attention，融合實體表示和 BERT 輸出 token 表示。?
early fusion：在 BERT 內部，進行句子的編碼時，顯式地引入 entity embeddings。輸入的實體表示可以來源模型外部 [11]，也可以是在模型中學習 [12]。以 ERNIE-THU [11] 為例，如下圖，除了建模原本句子內部 token 之間交互外，還建模 entity 與對應的 token 的交互，以及 entity 之間的交互。

注入關系級別的知識

這部分內容可大致分為兩類方法：?

1. relations as templated assetions: 將關系三元組轉化為陳述句，作為預訓練的文本。將關系三元組轉化為文本，和前面提到的完形填空有些類似，具體方法不展開。?

2. relations as pretraining objective: 引入一個或多個額外的訓練目標。這個思路下感覺還是有很大做的空間。接下來，本文選擇下面三個工作進行介紹：

Matching the Blanks [13]?
ERICA [14]?
KEPLER [15]?

Matching the Blanks 這是 2019 年的工作，算 BERT+relation 的工作中比較早期了。其思路是具有相同關系的句子表示應當相似。考慮到大規模的關系標注語料的缺乏，因此將“具有相同關系”這一限制放松為 “包含相同實體對”。進一步，考慮到實體對本身可能泄露答案，因此將句子中實體對 mask 掉。

ERICA 與 Matching the Blanks 類似，從“具有相同關系的句子表示應當相似”這個出發點訓練模型。而關系標簽則是通過遠程監督獲得的。該任務被稱為關系鑒別任務。此外，這個工作還引入了實體鑒別任務，具體來說，輸入頭實體+關系以及一段包含尾實體的文本，讓模型找到尾實體。下圖給出了一個例子。

KEPLER 與 ERICA 一樣，都是 21 年發布的工作。相比之外，KEPLER 看來更加科學一點（個人觀點）。TransE 的目標是頭實體的表示 h，尾實體的表示t，與關系的表示 r，滿足 h+t=r。在原本的 TransE 的工作中，實體的表示都是沒有結合上下文的；而在 KEPLER 中，則是結合了上下文。在 KEPLER 中，知識嵌入和 language modeling，是共享編碼器，同時訓練的。不得不說，這個框架看起來簡潔有力。

參考文獻

[1]?Petroni, Fabio, et al. "Language models as knowledge bases?." arXiv preprint arXiv:1909.01066 (2019).?

[2]?Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.?

[3]?Guu, Kelvin, et al. "Retrieval augmented language model pre-training.“ ICML 2020.?

[4]?Roberts, Adam, et al. "How Much Knowledge Can You Pack Into the Parameters of a Language Model?." EMNLP 2020.?

[5] Poerner, Nina, Ulli Waltinger, and Hinrich Schütze. "E-BERT: Efficient-yet-effective entity embeddings for BERT." EMNLP 2020.?

[6] Xiong, Wenhan, et al. "Pretrained encyclopedia: Weakly supervised knowledge-pretrained language model.“, ICLR 2020.?

[7] Clark, Kevin, et al. "Electra: Pre-training text encoders as discriminators rather than generators." arXiv preprint arXiv:2003.10555 (2020).?

[8] Ling, Jeffrey, et al. "Learning cross-context entity representations from text." ICLR 2020.?

[9]?Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems 26 (2013).?

[10]?Peters, Matthew E., et al. "Knowledge enhanced contextual word representations." EMNLP 2019.?

[11]?Zhang, Zhengyan, et al. "ERNIE: Enhanced language representation with informative entities." ACL 2019.?

[12]?Févry, Thibault, et al. "Entities as experts: Sparse memory access with entity supervision." EMNLP 2020.?

[13]?Soares, Livio Baldini, et al. "Matching the Blanks: Distributional Similarity for Relation Learning." ACL 2019.?

[14]?Qin, Yujia, et al. "ERICA: improving entity and relation understanding for pre-trained language models via contrastive learning." ACL 2021.?

[1]?5Wang, Xiaozhi, et al. "KEPLER: A unified model for knowledge embedding and pre-trained language representation." TACL 2021.

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的EMNLP 2021 最新综述：语言模型中的关系性知识的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：重庆小面有哪些？
下一篇：英伟达官方免费课程！学用皮克斯USD框架

编程问答

​EMNLP 2021 最新综述：语言模型中的关系性知识

總結

EMNLP 2021 最新综述：语言模型中的关系性知识