WWW 2021 | 融合先验知识的BERT注意力模型
?PaperWeekly 原創(chuàng) ·?作者|張琨
學(xué)校|中國科學(xué)技術(shù)大學(xué)博士生
研究方向|自然語言處理
Motivation
BERT 等預(yù)訓(xùn)練模型使得自然語言處理等相關(guān)研究能夠充分利用大規(guī)模的無標注語料,推動了整個自然語言處理的發(fā)展。那么接下來如何進一步提升 BERT 等模型的效果是研究人員關(guān)注的一個重點。除了結(jié)構(gòu),訓(xùn)練方式等,一個重要的分支就是使用外部知識,利用外部知識提升模型的效果。
常規(guī)做法是增加一個額外的任務(wù)幫助模型利用外部知識,這種存在一個問題,額外的任務(wù)會影響 BERT 本身的結(jié)構(gòu)和參數(shù),因此提升效果是不穩(wěn)定的,有沒有更加簡單有效的方法提升模型的效果呢?
針對這個問題,本文針對 BERT 在文本語義匹配任務(wù)上進行了一個深入的研究,并設(shè)計了一種簡單有效的外部知識利用方法。
論文標題:
Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks
論文作者:
Tingyu Xia / Yue Wang / Yuan Tian / Yi Chang
論文鏈接:
https://arxiv.org/abs/2102.10934
代碼鏈接:
https://github.com/xiatingyu/Bert_sim
Method
為了分析如何引入外部知識,引入何種外部知識,作者首先對 BERT 進行了驗證分析,分析 BERT 學(xué)到了哪些知識,是在哪些層中學(xué)習(xí)到的,然后在有針對性的設(shè)計外部知識以及知識引入方法。本文也根據(jù)作者的這個思路來介紹這篇文章。
2.1 BERT結(jié)構(gòu)分析
在這部分,作者主要進行了兩個方面的問題,數(shù)據(jù)增強分析,逐層表現(xiàn)分析。
2.1.1 數(shù)據(jù)增強分析
這部分的主要思想就是通過對比 BERT 在不同數(shù)據(jù)增強的數(shù)據(jù)上的表現(xiàn),如果某個數(shù)據(jù)增強策略能夠提升 BERT 的效果,那么就說明 BERT 并沒有學(xué)習(xí)到這部分知識,還需要增強;否則說明 BERT 已經(jīng)學(xué)習(xí)到這些知識了。
為此,作者選擇了多種數(shù)據(jù)增強的方法,包括 Split and swap,Add random word ,Back translation ,Add high-TfIdf word ,Delete low-TfIdf word ,Replace synonyms 。相關(guān)的實驗結(jié)果如下圖所示:
其中虛線為原始 BERT 模型的基線效果,從圖中可以看出在所有的數(shù)據(jù)增強方法中,除了替換同義詞(Replace synonyms )之外,其他方法都導(dǎo)致模型效果下降,說明了 BERT 在同義詞理解和利用方面仍存在一定的欠缺,可以使用這部分知識進行提升(P.S. 這種方法可能會有一點問題,因為其他數(shù)據(jù)增強的方法可能會改變語義,而同義詞替換并不會改變語義,這點仍值得商榷)
2.1.2 逐層表現(xiàn)分析
這部分相對來說簡單一些,作者固定 BERT 的參數(shù),然后分別抽取每一層的結(jié)果,然后利用一個簡單的分類器進行文本語義匹配分類,通過實驗結(jié)果看哪一層的效果最好,效果好說明這層學(xué)習(xí)到了知識,效果不好說明該層仍需要一定的改進和提升,相關(guān)實驗結(jié)果圖如下:
從實驗結(jié)果看模型中間層的輸出結(jié)果能夠取得最好的效果,而底層和頂層的效果都不太好。這其實也很好解釋,底層還沒有真正學(xué)習(xí)到有用的知識,中間層學(xué)習(xí)的是相對通用的知識,而頂層的學(xué)習(xí)到底是任務(wù)相關(guān)的知識(NSP, MLM)。因此,從這個實驗結(jié)果中可以看出,如果要增加額外知識的話,應(yīng)該增加到底層。
2.2 外部知識引入
經(jīng)過前一步的分析,本文已經(jīng)大致確定了如何利用外部知識的思路,即使用同義詞知識增強 BERT 模型底層的表現(xiàn),從而提升模型的效果,因此作者提出了利用詞相似知道底層注意力的計算。具體如下:
2.2.1 Word Similarity Matrix
輸入兩個句子之后,構(gòu)建一個針對兩個句子的詞相似矩陣,其中每個元素值的確定方法:如果對應(yīng)的兩個詞在 WordNet 中是同義詞,那么值就為 1,如果不是,那就是 0,同樣,對已一些停用詞,或者這兩個詞并沒有在 WordNet 中發(fā)現(xiàn),均用 0 表示,然后使用在 WordNet 中的拓撲距離對整個詞相似矩陣進行調(diào)整,具體可以參見(Verbs semantics and lexical selection)
2.2.2 Knowledge-Guided Attention
該步主要是將得到的詞相似矩陣用于底層注意力計算的修正,具體而言,BERT 對輸入的句子進行處理,然后計算注意力得分的過程可以表示為:
而作者直接將得到的詞相似矩陣加到了 score 的計算過程中,這樣公式2就被修正為如下形式:
通過這種形式就實現(xiàn)對外部知識的充分利用。該過程還可以使用下圖表示:
需要說明的是相似度矩陣構(gòu)建的方式可以有很多種,能夠根據(jù)不同的需求進行不同的調(diào)整,是非常靈活的。
Experiments
為了驗證模型的效果,作者分別在多個語義匹配的數(shù)據(jù)集上進行了相關(guān)的實驗,例如 MRPC, STS-B, QQP, Twitter-URL,相關(guān)的實驗結(jié)果如下圖所示:
還是可以很直觀說明本文提出的方法的效果的。另外作者為了更好的驗證提出的方法的效果,相同的操作也針對 ESIM 模型進行了驗證,這里就不在舉例了。
Conclusion
本文是 WWW 2021 的一篇文章,文章穩(wěn)扎穩(wěn)打,從模型分析引入,根據(jù)分析的結(jié)果得出改進方法,然后進行改進,接著進行改進方法的驗證,有理有據(jù),是一篇值得深挖和學(xué)習(xí)的文章。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的WWW 2021 | 融合先验知识的BERT注意力模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无法启动电脑的启动盘怎么做 无法启动电脑
- 下一篇: 3D Human相关研究总结:人体、姿态