日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WWW 2021 | 融合先验知识的BERT注意力模型

發(fā)布時間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 WWW 2021 | 融合先验知识的BERT注意力模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|張琨

學(xué)校|中國科學(xué)技術(shù)大學(xué)博士生

研究方向|自然語言處理

Motivation

BERT 等預(yù)訓(xùn)練模型使得自然語言處理等相關(guān)研究能夠充分利用大規(guī)模的無標注語料,推動了整個自然語言處理的發(fā)展。那么接下來如何進一步提升 BERT 等模型的效果是研究人員關(guān)注的一個重點。除了結(jié)構(gòu),訓(xùn)練方式等,一個重要的分支就是使用外部知識,利用外部知識提升模型的效果。

常規(guī)做法是增加一個額外的任務(wù)幫助模型利用外部知識,這種存在一個問題,額外的任務(wù)會影響 BERT 本身的結(jié)構(gòu)和參數(shù),因此提升效果是不穩(wěn)定的,有沒有更加簡單有效的方法提升模型的效果呢?

針對這個問題,本文針對 BERT 在文本語義匹配任務(wù)上進行了一個深入的研究,并設(shè)計了一種簡單有效的外部知識利用方法。

論文標題:

Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks

論文作者:

Tingyu Xia / Yue Wang / Yuan Tian / Yi Chang

論文鏈接:

https://arxiv.org/abs/2102.10934

代碼鏈接:

https://github.com/xiatingyu/Bert_sim

Method

為了分析如何引入外部知識,引入何種外部知識,作者首先對 BERT 進行了驗證分析,分析 BERT 學(xué)到了哪些知識,是在哪些層中學(xué)習(xí)到的,然后在有針對性的設(shè)計外部知識以及知識引入方法。本文也根據(jù)作者的這個思路來介紹這篇文章。

2.1 BERT結(jié)構(gòu)分析

在這部分,作者主要進行了兩個方面的問題,數(shù)據(jù)增強分析,逐層表現(xiàn)分析。

2.1.1 數(shù)據(jù)增強分析

這部分的主要思想就是通過對比 BERT 在不同數(shù)據(jù)增強的數(shù)據(jù)上的表現(xiàn),如果某個數(shù)據(jù)增強策略能夠提升 BERT 的效果,那么就說明 BERT 并沒有學(xué)習(xí)到這部分知識,還需要增強;否則說明 BERT 已經(jīng)學(xué)習(xí)到這些知識了。

為此,作者選擇了多種數(shù)據(jù)增強的方法,包括 Split and swap,Add random word ,Back translation ,Add high-TfIdf word ,Delete low-TfIdf word ,Replace synonyms 。相關(guān)的實驗結(jié)果如下圖所示:

其中虛線為原始 BERT 模型的基線效果,從圖中可以看出在所有的數(shù)據(jù)增強方法中,除了替換同義詞(Replace synonyms )之外,其他方法都導(dǎo)致模型效果下降,說明了 BERT 在同義詞理解和利用方面仍存在一定的欠缺,可以使用這部分知識進行提升(P.S. 這種方法可能會有一點問題,因為其他數(shù)據(jù)增強的方法可能會改變語義,而同義詞替換并不會改變語義,這點仍值得商榷)

2.1.2 逐層表現(xiàn)分析

這部分相對來說簡單一些,作者固定 BERT 的參數(shù),然后分別抽取每一層的結(jié)果,然后利用一個簡單的分類器進行文本語義匹配分類,通過實驗結(jié)果看哪一層的效果最好,效果好說明這層學(xué)習(xí)到了知識,效果不好說明該層仍需要一定的改進和提升,相關(guān)實驗結(jié)果圖如下:

從實驗結(jié)果看模型中間層的輸出結(jié)果能夠取得最好的效果,而底層和頂層的效果都不太好。這其實也很好解釋,底層還沒有真正學(xué)習(xí)到有用的知識,中間層學(xué)習(xí)的是相對通用的知識,而頂層的學(xué)習(xí)到底是任務(wù)相關(guān)的知識(NSP, MLM)。因此,從這個實驗結(jié)果中可以看出,如果要增加額外知識的話,應(yīng)該增加到底層。

2.2 外部知識引入

經(jīng)過前一步的分析,本文已經(jīng)大致確定了如何利用外部知識的思路,即使用同義詞知識增強 BERT 模型底層的表現(xiàn),從而提升模型的效果,因此作者提出了利用詞相似知道底層注意力的計算。具體如下:

2.2.1 Word Similarity Matrix

輸入兩個句子之后,構(gòu)建一個針對兩個句子的詞相似矩陣,其中每個元素值的確定方法:如果對應(yīng)的兩個詞在 WordNet 中是同義詞,那么值就為 1,如果不是,那就是 0,同樣,對已一些停用詞,或者這兩個詞并沒有在 WordNet 中發(fā)現(xiàn),均用 0 表示,然后使用在 WordNet 中的拓撲距離對整個詞相似矩陣進行調(diào)整,具體可以參見(Verbs semantics and lexical selection)

2.2.2 Knowledge-Guided Attention

該步主要是將得到的詞相似矩陣用于底層注意力計算的修正,具體而言,BERT 對輸入的句子進行處理,然后計算注意力得分的過程可以表示為:

而作者直接將得到的詞相似矩陣加到了 score 的計算過程中,這樣公式2就被修正為如下形式:

通過這種形式就實現(xiàn)對外部知識的充分利用。該過程還可以使用下圖表示:

需要說明的是相似度矩陣構(gòu)建的方式可以有很多種,能夠根據(jù)不同的需求進行不同的調(diào)整,是非常靈活的。

Experiments

為了驗證模型的效果,作者分別在多個語義匹配的數(shù)據(jù)集上進行了相關(guān)的實驗,例如 MRPC, STS-B, QQP, Twitter-URL,相關(guān)的實驗結(jié)果如下圖所示:

還是可以很直觀說明本文提出的方法的效果的。另外作者為了更好的驗證提出的方法的效果,相同的操作也針對 ESIM 模型進行了驗證,這里就不在舉例了。

Conclusion

本文是 WWW 2021 的一篇文章,文章穩(wěn)扎穩(wěn)打,從模型分析引入,根據(jù)分析的結(jié)果得出改進方法,然后進行改進,接著進行改進方法的驗證,有理有據(jù),是一篇值得深挖和學(xué)習(xí)的文章。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的WWW 2021 | 融合先验知识的BERT注意力模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。