EMNLP 2021 最新综述:语言模型中的关系性知识
?作者?|?張義策
單位?|?北哈爾濱工業大學(深圳)
研究方向?|?自然語言處理
論文標題:
Relational World Knowledge Representation in Contextual Language Models: A Review
論文來源:
EMNLP 2021
論文地址:
https://arxiv.org/pdf/2104.05837.pdf
這是 EMNLP 2021 上的一篇綜述,作者來自美國密西根大學。
知識庫與語言模型
以關系三元組為核心的知識庫是目前關系性知識的典型表達方法,其中關系三元組由 頭實體、關系和尾實體構成,如 (瑪麗居里,出生于,華沙)。
以知識庫的方式保存關系性知識的優點是精確、可解釋性強;
但其缺點也是明顯的,需要定義復雜的實體和關系類型,靈活性不夠,不夠全面。
而很多工作也表明,語言模型攜帶了一些關系性的知識。
Language Models as Knowledge Bases?[1]于是兩個方面問題自然地出現了:
語言模型保存了多少關系性的知識?如何從語言模型中推理出這些知識?
是否可以向語言模型中注入更多的關系性知識?
回答以上兩方面問題便是這篇文章的主要內容了,其中問題 2 中注入關系性知識又分為 實體級別的知識 和 關系級別的知識。下面本文依次對這三部分內容進行簡要敘述。
推理語言模型中的知識
讀者不禁會思考:為什么通過 language modeling 訓練的語言模型中會存在關系性的知識呢?文章給出了答案:這是因為維基百科中的很多文本都是關系性知識的陳述,而維基百科又是典型的預訓練語料。?
正如前面提到的,推理語言模型中知識的典型方法就是完形填空 (cloze prompting),即將帶空位的自然語言陳述輸入到 BERT 中,然后讓模型預測空位中的單詞。可以看到,在該方法中,如何將關系性知識轉化為陳述句便是關鍵了。
人工模板:典型的方法便是針對某個關系,人工撰寫一個模板,如“出生于”對應的模板為“[marie curie] was born in [warsaw]”;“職業”對應的模板為“[obama] worked as a [president]”。?
自動模板:人工模板的劣勢是顯然的,耗時耗力、也不一定好使。于是很多工作研究了如何自動產生模板。以Jiang et al(2020) [2] 為例,對于某個關系實例 (x, r, y),它首先識別維基百科中同時包含 x 和 y 的句子,然后將句子中 x 和 y 去掉,變成模板。這些針對關系 r 的模板通過重構(如翻譯兩次),生成更多模板。然后從這些候選模板中,選擇性能最好的模板。下面是一些模板的例子。當然,自動模板的方法中也有不同流派,這里不展開了。
除了完形填空之外,句子打分(statement scoring)也是一種典型的抽取知識方法。我想該方法應該是主要是面向生成模型的。
注入實體級別的知識
entity-level masking 是最簡單直接的方法,即在對句子進行 masking 的時候,將實體作為一個整體進而選擇 mask 或者不 mask。此外,也可以增加實體對應的 mask 概率,讓模型更關注實體信息。有工作 [3][4] 稱之為 Salient Span Masking。
將實體視作 token 當然我們也可以將實體整體作為一個 token。在 E-BERT [5] 中,作者將實體對應的 token 合并為一個 token,如下圖中的 Jean_Marais;作者發現將合并后的 token 和原本的 tokens 一起保留下來 (E-BERT-concat),效果會比較好。但是該方法帶來的一個明顯問題是詞表的規模大大增加了(30k->6m)。
上面兩種方法可以說都是在輸入層面對 mask language modeling 進行改動。也有研究者通過增加其他訓練目標的方式,在預訓練階段注入實體級別的知識,典型的兩種為:
entity replacement detection [6]:將句子中的實體替換為同類型的其他實體,然后讓模型預測替換是否存在。這有些類似 ELECTRA [7] 中的 replaced token detection。
entity linking[8]:實體鏈接是指將文本中的字符映射到知識庫對應的實體上。將該任務加入到預訓練過程中,相應的標注便是來源于百科文本中指向其他詞條的鏈接。
entities as embeddings 以 transE [9] 為代表的知識嵌入(knowledge embeddings)可以為知識圖譜中的實體的得到一個表示。一些工作將這些實體表示和 BERT 中的 token 表示結合在一起。?
align & fusion:Peters et al (2019)[10] 通過 word-to-entity attention,融合實體表示和 BERT 輸出 token 表示。?
early fusion:在 BERT 內部,進行句子的編碼時,顯式地引入 entity embeddings。輸入的實體表示可以來源模型外部 [11],也可以是在模型中學習 [12]。以 ERNIE-THU [11] 為例,如下圖,除了建模原本句子內部 token 之間交互外,還建模 entity 與對應的 token 的交互,以及 entity 之間的交互。
注入關系級別的知識
這部分內容可大致分為兩類方法:?
1. relations as templated assetions: 將關系三元組轉化為陳述句,作為預訓練的文本。將關系三元組轉化為文本,和前面提到的完形填空有些類似,具體方法不展開。?
2. relations as pretraining objective: 引入一個或多個額外的訓練目標。這個思路下感覺還是有很大做的空間。接下來,本文選擇下面三個工作進行介紹:
Matching the Blanks [13]?
ERICA [14]?
KEPLER [15]?
Matching the Blanks 這是 2019 年的工作,算 BERT+relation 的工作中比較早期了。其思路是具有相同關系的句子表示應當相似。考慮到大規模的關系標注語料的缺乏,因此將“具有相同關系”這一限制放松為 “包含相同實體對”。進一步,考慮到實體對本身可能泄露答案,因此將句子中實體對 mask 掉。
ERICA 與 Matching the Blanks 類似,從“具有相同關系的句子表示應當相似”這個出發點訓練模型。而關系標簽則是通過遠程監督獲得的。該任務被稱為關系鑒別任務。此外,這個工作還引入了實體鑒別任務,具體來說,輸入頭實體+關系以及一段包含尾實體的文本,讓模型找到尾實體。下圖給出了一個例子。
KEPLER 與 ERICA 一樣,都是 21 年發布的工作。相比之外,KEPLER 看來更加科學一點(個人觀點)。TransE 的目標是頭實體的表示 h,尾實體的表示t,與關系的表示 r,滿足 h+t=r。在原本的 TransE 的工作中,實體的表示都是沒有結合上下文的;而在 KEPLER 中,則是結合了上下文。在 KEPLER 中,知識嵌入和 language modeling,是共享編碼器,同時訓練的。不得不說,這個框架看起來簡潔有力。
參考文獻
[1]?Petroni, Fabio, et al. "Language models as knowledge bases?." arXiv preprint arXiv:1909.01066 (2019).?
[2]?Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.?
[3]?Guu, Kelvin, et al. "Retrieval augmented language model pre-training.“ ICML 2020.?
[4]?Roberts, Adam, et al. "How Much Knowledge Can You Pack Into the Parameters of a Language Model?." EMNLP 2020.?
[5] Poerner, Nina, Ulli Waltinger, and Hinrich Schütze. "E-BERT: Efficient-yet-effective entity embeddings for BERT." EMNLP 2020.?
[6] Xiong, Wenhan, et al. "Pretrained encyclopedia: Weakly supervised knowledge-pretrained language model.“, ICLR 2020.?
[7] Clark, Kevin, et al. "Electra: Pre-training text encoders as discriminators rather than generators." arXiv preprint arXiv:2003.10555 (2020).?
[8] Ling, Jeffrey, et al. "Learning cross-context entity representations from text." ICLR 2020.?
[9]?Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems 26 (2013).?
[10]?Peters, Matthew E., et al. "Knowledge enhanced contextual word representations." EMNLP 2019.?
[11]?Zhang, Zhengyan, et al. "ERNIE: Enhanced language representation with informative entities." ACL 2019.?
[12]?Févry, Thibault, et al. "Entities as experts: Sparse memory access with entity supervision." EMNLP 2020.?
[13]?Soares, Livio Baldini, et al. "Matching the Blanks: Distributional Similarity for Relation Learning." ACL 2019.?
[14]?Qin, Yujia, et al. "ERICA: improving entity and relation understanding for pre-trained language models via contrastive learning." ACL 2021.?
[1]?5Wang, Xiaozhi, et al. "KEPLER: A unified model for knowledge embedding and pre-trained language representation." TACL 2021.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的EMNLP 2021 最新综述:语言模型中的关系性知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重庆小面有哪些?
- 下一篇: 新房装修后搬家注意什么