當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WWW 2021 | 融合先验知识的BERT注意力模型

發(fā)布時間：2024/10/8 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 WWW 2021 | 融合先验知识的BERT注意力模型小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者｜張琨

學(xué)校｜中國科學(xué)技術(shù)大學(xué)博士生

研究方向｜自然語言處理

Motivation

BERT 等預(yù)訓(xùn)練模型使得自然語言處理等相關(guān)研究能夠充分利用大規(guī)模的無標注語料，推動了整個自然語言處理的發(fā)展。那么接下來如何進一步提升 BERT 等模型的效果是研究人員關(guān)注的一個重點。除了結(jié)構(gòu)，訓(xùn)練方式等，一個重要的分支就是使用外部知識，利用外部知識提升模型的效果。

常規(guī)做法是增加一個額外的任務(wù)幫助模型利用外部知識，這種存在一個問題，額外的任務(wù)會影響 BERT 本身的結(jié)構(gòu)和參數(shù)，因此提升效果是不穩(wěn)定的，有沒有更加簡單有效的方法提升模型的效果呢？

針對這個問題，本文針對 BERT 在文本語義匹配任務(wù)上進行了一個深入的研究，并設(shè)計了一種簡單有效的外部知識利用方法。

論文標題：

Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks

論文作者：

Tingyu Xia / Yue Wang / Yuan Tian / Yi Chang

論文鏈接：

https://arxiv.org/abs/2102.10934

代碼鏈接：

https://github.com/xiatingyu/Bert_sim

Method

為了分析如何引入外部知識，引入何種外部知識，作者首先對 BERT 進行了驗證分析，分析 BERT 學(xué)到了哪些知識，是在哪些層中學(xué)習(xí)到的，然后在有針對性的設(shè)計外部知識以及知識引入方法。本文也根據(jù)作者的這個思路來介紹這篇文章。

2.1 BERT結(jié)構(gòu)分析

在這部分，作者主要進行了兩個方面的問題，數(shù)據(jù)增強分析，逐層表現(xiàn)分析。

2.1.1 數(shù)據(jù)增強分析

這部分的主要思想就是通過對比 BERT 在不同數(shù)據(jù)增強的數(shù)據(jù)上的表現(xiàn)，如果某個數(shù)據(jù)增強策略能夠提升 BERT 的效果，那么就說明 BERT 并沒有學(xué)習(xí)到這部分知識，還需要增強；否則說明 BERT 已經(jīng)學(xué)習(xí)到這些知識了。

為此，作者選擇了多種數(shù)據(jù)增強的方法，包括 Split and swap，Add random word ，Back translation ，Add high-TfIdf word ，Delete low-TfIdf word ，Replace synonyms 。相關(guān)的實驗結(jié)果如下圖所示：

其中虛線為原始 BERT 模型的基線效果，從圖中可以看出在所有的數(shù)據(jù)增強方法中，除了替換同義詞（Replace synonyms ）之外，其他方法都導(dǎo)致模型效果下降，說明了 BERT 在同義詞理解和利用方面仍存在一定的欠缺，可以使用這部分知識進行提升（P.S. 這種方法可能會有一點問題，因為其他數(shù)據(jù)增強的方法可能會改變語義，而同義詞替換并不會改變語義，這點仍值得商榷）

2.1.2 逐層表現(xiàn)分析

這部分相對來說簡單一些，作者固定 BERT 的參數(shù)，然后分別抽取每一層的結(jié)果，然后利用一個簡單的分類器進行文本語義匹配分類，通過實驗結(jié)果看哪一層的效果最好，效果好說明這層學(xué)習(xí)到了知識，效果不好說明該層仍需要一定的改進和提升，相關(guān)實驗結(jié)果圖如下：

從實驗結(jié)果看模型中間層的輸出結(jié)果能夠取得最好的效果，而底層和頂層的效果都不太好。這其實也很好解釋，底層還沒有真正學(xué)習(xí)到有用的知識，中間層學(xué)習(xí)的是相對通用的知識，而頂層的學(xué)習(xí)到底是任務(wù)相關(guān)的知識（NSP, MLM）。因此，從這個實驗結(jié)果中可以看出，如果要增加額外知識的話，應(yīng)該增加到底層。

2.2 外部知識引入

經(jīng)過前一步的分析，本文已經(jīng)大致確定了如何利用外部知識的思路，即使用同義詞知識增強 BERT 模型底層的表現(xiàn)，從而提升模型的效果，因此作者提出了利用詞相似知道底層注意力的計算。具體如下：

2.2.1 Word Similarity Matrix

輸入兩個句子之后，構(gòu)建一個針對兩個句子的詞相似矩陣，其中每個元素值的確定方法：如果對應(yīng)的兩個詞在 WordNet 中是同義詞，那么值就為 1，如果不是，那就是 0，同樣，對已一些停用詞，或者這兩個詞并沒有在 WordNet 中發(fā)現(xiàn)，均用 0 表示，然后使用在 WordNet 中的拓撲距離對整個詞相似矩陣進行調(diào)整，具體可以參見（Verbs semantics and lexical selection）

2.2.2 Knowledge-Guided Attention

該步主要是將得到的詞相似矩陣用于底層注意力計算的修正，具體而言，BERT 對輸入的句子進行處理，然后計算注意力得分的過程可以表示為：

而作者直接將得到的詞相似矩陣加到了 score 的計算過程中，這樣公式2就被修正為如下形式：

通過這種形式就實現(xiàn)對外部知識的充分利用。該過程還可以使用下圖表示：

需要說明的是相似度矩陣構(gòu)建的方式可以有很多種，能夠根據(jù)不同的需求進行不同的調(diào)整，是非常靈活的。

Experiments

為了驗證模型的效果，作者分別在多個語義匹配的數(shù)據(jù)集上進行了相關(guān)的實驗，例如 MRPC, STS-B, QQP, Twitter-URL，相關(guān)的實驗結(jié)果如下圖所示：

還是可以很直觀說明本文提出的方法的效果的。另外作者為了更好的驗證提出的方法的效果，相同的操作也針對 ESIM 模型進行了驗證，這里就不在舉例了。

Conclusion

本文是 WWW 2021 的一篇文章，文章穩(wěn)扎穩(wěn)打，從模型分析引入，根據(jù)分析的結(jié)果得出改進方法，然后進行改進，接著進行改進方法的驗證，有理有據(jù)，是一篇值得深挖和學(xué)習(xí)的文章。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的WWW 2021 | 融合先验知识的BERT注意力模型的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：无法启动电脑的启动盘怎么做无法启动电脑
下一篇： 3D Human相关研究总结：人体、姿态