日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

​EMNLP 2021 最新综述:语言模型中的关系性知识

發布時間:2024/10/8 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ​EMNLP 2021 最新综述:语言模型中的关系性知识 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?張義策

單位?|?北哈爾濱工業大學(深圳)

研究方向?|?自然語言處理

論文標題:

Relational World Knowledge Representation in Contextual Language Models: A Review

論文來源:

EMNLP 2021

論文地址:

https://arxiv.org/pdf/2104.05837.pdf

這是 EMNLP 2021 上的一篇綜述,作者來自美國密西根大學。

知識庫與語言模型

以關系三元組為核心的知識庫是目前關系性知識的典型表達方法,其中關系三元組由 頭實體、關系和尾實體構成,如 (瑪麗居里,出生于,華沙)。

  • 以知識庫的方式保存關系性知識的優點是精確、可解釋性強;

  • 但其缺點也是明顯的,需要定義復雜的實體和關系類型,靈活性不夠,不夠全面。

而很多工作也表明,語言模型攜帶了一些關系性的知識。

Language Models as Knowledge Bases?[1]

于是兩個方面問題自然地出現了:

  • 語言模型保存了多少關系性的知識?如何從語言模型中推理出這些知識?

  • 是否可以向語言模型中注入更多的關系性知識?

回答以上兩方面問題便是這篇文章的主要內容了,其中問題 2 中注入關系性知識又分為 實體級別的知識 和 關系級別的知識。下面本文依次對這三部分內容進行簡要敘述。

推理語言模型中的知識

讀者不禁會思考:為什么通過 language modeling 訓練的語言模型中會存在關系性的知識呢?文章給出了答案:這是因為維基百科中的很多文本都是關系性知識的陳述,而維基百科又是典型的預訓練語料。?

正如前面提到的,推理語言模型中知識的典型方法就是完形填空 (cloze prompting),即將帶空位的自然語言陳述輸入到 BERT 中,然后讓模型預測空位中的單詞。可以看到,在該方法中,如何將關系性知識轉化為陳述句便是關鍵了。

人工模板:典型的方法便是針對某個關系,人工撰寫一個模板,如“出生于”對應的模板為“[marie curie] was born in [warsaw]”;“職業”對應的模板為“[obama] worked as a [president]”。?

自動模板:人工模板的劣勢是顯然的,耗時耗力、也不一定好使。于是很多工作研究了如何自動產生模板。以Jiang et al(2020) [2] 為例,對于某個關系實例 (x, r, y),它首先識別維基百科中同時包含 x 和 y 的句子,然后將句子中 x 和 y 去掉,變成模板。這些針對關系 r 的模板通過重構(如翻譯兩次),生成更多模板。然后從這些候選模板中,選擇性能最好的模板。下面是一些模板的例子。當然,自動模板的方法中也有不同流派,這里不展開了。

除了完形填空之外,句子打分(statement scoring)也是一種典型的抽取知識方法。我想該方法應該是主要是面向生成模型的。

注入實體級別的知識

entity-level masking 是最簡單直接的方法,即在對句子進行 masking 的時候,將實體作為一個整體進而選擇 mask 或者不 mask。此外,也可以增加實體對應的 mask 概率,讓模型更關注實體信息。有工作 [3][4] 稱之為 Salient Span Masking。

將實體視作 token 當然我們也可以將實體整體作為一個 token。在 E-BERT [5] 中,作者將實體對應的 token 合并為一個 token,如下圖中的 Jean_Marais;作者發現將合并后的 token 和原本的 tokens 一起保留下來 (E-BERT-concat),效果會比較好。但是該方法帶來的一個明顯問題是詞表的規模大大增加了(30k->6m)。

上面兩種方法可以說都是在輸入層面對 mask language modeling 進行改動。也有研究者通過增加其他訓練目標的方式,在預訓練階段注入實體級別的知識,典型的兩種為:

entity replacement detection [6]:將句子中的實體替換為同類型的其他實體,然后讓模型預測替換是否存在。這有些類似 ELECTRA [7] 中的 replaced token detection。

entity linking[8]:實體鏈接是指將文本中的字符映射到知識庫對應的實體上。將該任務加入到預訓練過程中,相應的標注便是來源于百科文本中指向其他詞條的鏈接。

entities as embeddings 以 transE [9] 為代表的知識嵌入(knowledge embeddings)可以為知識圖譜中的實體的得到一個表示。一些工作將這些實體表示和 BERT 中的 token 表示結合在一起。?

  • align & fusion:Peters et al (2019)[10] 通過 word-to-entity attention,融合實體表示和 BERT 輸出 token 表示。?

  • early fusion:在 BERT 內部,進行句子的編碼時,顯式地引入 entity embeddings。輸入的實體表示可以來源模型外部 [11],也可以是在模型中學習 [12]。以 ERNIE-THU [11] 為例,如下圖,除了建模原本句子內部 token 之間交互外,還建模 entity 與對應的 token 的交互,以及 entity 之間的交互。

注入關系級別的知識

這部分內容可大致分為兩類方法:?

1. relations as templated assetions: 將關系三元組轉化為陳述句,作為預訓練的文本。將關系三元組轉化為文本,和前面提到的完形填空有些類似,具體方法不展開。?

2. relations as pretraining objective: 引入一個或多個額外的訓練目標。這個思路下感覺還是有很大做的空間。接下來,本文選擇下面三個工作進行介紹:

  • Matching the Blanks [13]?

  • ERICA [14]?

  • KEPLER [15]?

Matching the Blanks 這是 2019 年的工作,算 BERT+relation 的工作中比較早期了。其思路是具有相同關系的句子表示應當相似。考慮到大規模的關系標注語料的缺乏,因此將“具有相同關系”這一限制放松為 “包含相同實體對”。進一步,考慮到實體對本身可能泄露答案,因此將句子中實體對 mask 掉。

ERICA 與 Matching the Blanks 類似,從“具有相同關系的句子表示應當相似”這個出發點訓練模型。而關系標簽則是通過遠程監督獲得的。該任務被稱為關系鑒別任務。此外,這個工作還引入了實體鑒別任務,具體來說,輸入頭實體+關系以及一段包含尾實體的文本,讓模型找到尾實體。下圖給出了一個例子。

KEPLER 與 ERICA 一樣,都是 21 年發布的工作。相比之外,KEPLER 看來更加科學一點(個人觀點)。TransE 的目標是頭實體的表示 h,尾實體的表示t,與關系的表示 r,滿足 h+t=r。在原本的 TransE 的工作中,實體的表示都是沒有結合上下文的;而在 KEPLER 中,則是結合了上下文。在 KEPLER 中,知識嵌入和 language modeling,是共享編碼器,同時訓練的。不得不說,這個框架看起來簡潔有力。

參考文獻

[1]?Petroni, Fabio, et al. "Language models as knowledge bases?." arXiv preprint arXiv:1909.01066 (2019).?

[2]?Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.?

[3]?Guu, Kelvin, et al. "Retrieval augmented language model pre-training.“ ICML 2020.?

[4]?Roberts, Adam, et al. "How Much Knowledge Can You Pack Into the Parameters of a Language Model?." EMNLP 2020.?

[5] Poerner, Nina, Ulli Waltinger, and Hinrich Schütze. "E-BERT: Efficient-yet-effective entity embeddings for BERT." EMNLP 2020.?

[6] Xiong, Wenhan, et al. "Pretrained encyclopedia: Weakly supervised knowledge-pretrained language model.“, ICLR 2020.?

[7] Clark, Kevin, et al. "Electra: Pre-training text encoders as discriminators rather than generators." arXiv preprint arXiv:2003.10555 (2020).?

[8] Ling, Jeffrey, et al. "Learning cross-context entity representations from text." ICLR 2020.?

[9]?Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems 26 (2013).?

[10]?Peters, Matthew E., et al. "Knowledge enhanced contextual word representations." EMNLP 2019.?

[11]?Zhang, Zhengyan, et al. "ERNIE: Enhanced language representation with informative entities." ACL 2019.?

[12]?Févry, Thibault, et al. "Entities as experts: Sparse memory access with entity supervision." EMNLP 2020.?

[13]?Soares, Livio Baldini, et al. "Matching the Blanks: Distributional Similarity for Relation Learning." ACL 2019.?

[14]?Qin, Yujia, et al. "ERICA: improving entity and relation understanding for pre-trained language models via contrastive learning." ACL 2021.?

[1]?5Wang, Xiaozhi, et al. "KEPLER: A unified model for knowledge embedding and pre-trained language representation." TACL 2021.

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的​EMNLP 2021 最新综述:语言模型中的关系性知识的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 青青草视频黄 | 国产女人呻吟高潮抽搐声 | 先锋资源一区 | 亚洲中文字幕久久无码 | 国产91福利 | www.亚洲欧美 | 少妇被爽到高潮动态图 | 日本黄色录象 | 亚洲一区二区三区免费看 | 亚洲精品成av人片天堂无码 | 国偷自拍| 天堂а√在线最新版中文在线 | 图片区偷拍区小说区 | 美女大逼| 五月天国产视频 | 性欧美激情 | 99黄色| 成人在线观看h | 亚洲AV成人无码网站天堂久久 | 波多野结衣99 | 日韩精品视频一区二区在线观看 | 午夜第一页 | 精品国产一区二区三区性色 | 国产精品视频久久久 | 色天使在线视频 | 欧美一级免费 | 日本泡妞xxxx免费视频软件 | a视频网站 | 国语久久 | 人妻夜夜爽天天爽三区麻豆av网站 | 久久艹这里只有精品 | 一区二区视频免费观看 | 国产精品午夜电影 | 观看毛片 | 欧美三级在线视频 | 侵犯亲女在线播放视频 | 欧美野外猛男的大粗鳮 | 成人在线直播 | 国产不卡网 | 国产高清精品在线 | 乳孔很大能进去的av番号 | 国产视频一二三区 | 国产精品亚洲专区无码牛牛 | 荷兰av| 九九综合久久 | xxx视频在线观看 | 国产女人18毛片水真多 | 亚洲一级电影 | 日韩视频一区二区 | 住在隔壁的她动漫免费观看全集下载 | 九九九九九九精品 | 超碰综合 | 久久久wwww | 美女黄色真播 | 操女人免费视频 | 视频一区二区免费 | 日韩黄色在线 | 五月天综合久久 | 伊人天堂网 | 精品人妻一区二区三区蜜桃 | 佐山爱在线视频 | 秋霞欧洲 | 亚洲精品综合 | 久久久久人妻一区精品 | 久久国产乱| 日韩一区二区a片免费观看 伊人网综合在线 | 一区二区三区在线观看免费视频 | 天堂网成人 | 精品一区在线 | 九色91porny| 按摩毛片 | 亚洲精选免费 | 久久两性视频 | 无码日韩精品一区二区 | 宅男噜噜噜66一区二区 | 在线视频91 | 美国少妇在线观看免费 | 偷偷操不一样的久久 | 成年人午夜影院 | 欧美精品福利视频 | 亚洲免费色视频 | 免费久久一级欧美特大黄 | 婷综合| 18禁超污无遮挡无码免费游戏 | 国产人妖一区二区三区 | 播色网| 国产美女福利在线 | 亚州av免费 | 色婷婷亚洲一区二区三区 | 尤物av在线| 国产精品一色哟哟哟 | 8x8ⅹ国产精品一区二区 | 99自拍视频 | 欧美黑人精品一区二区不卡 | 免费h片网站 | 就操网 | fc2成人免费视频 | 亚洲成人精品在线 | 成人人伦一区二区三区 |