日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | BERT:Pre-training of Deep Bidirectional Transformers

發布時間:2024/7/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | BERT:Pre-training of Deep Bidirectional Transformers 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:王春培,天津大學碩士。


鏈接:https://arxiv.org/pdf/1810.04805.pdf

動機

將預訓練語言表示應用于下有任務現有兩種策略:基于特征的和基于微調的。文章認為當前技術限制了預訓練的能力,尤其是基于微調的方法。很多語言模型是單向的,或者特征抽取器功能不夠強大,這些都限制了下游NLP任務的性能。BERT模型通過使用雙向編碼器來改進基于微調的方法,添加NSP提高模型性能,推進了11項NLP任務的技術。


亮點

BERT的亮點主要包括:

(1)使用雙向語言模型,使用能力更強的Transformer提取特征,添加NSP任務,提高模型性能。

(2)推進了11項NLP任務的最新技術,可應用范圍非常廣。

概念及模型

  • 模型體系結構

BERT的模型架構是一個多層雙向Transformer編碼器,文中主要報告兩種模型參數的結果:

(1)BERTBASE: L=12, H=768, A=12, TotalParameters=110M

(2)BERTLARGE: L=24, H=1024, A=16, TotalParameters=340M

  • 輸入表示

輸入表示分為三部分:

(1)詞嵌入:用##表示分詞

(2)位置嵌入:通過學習得到位置嵌入,支持序列長度可達512個令牌

(3)句子嵌入:句子對被打包成一個序列,首先用特殊標記將它們分開。其次,添加一個學習句子A嵌入到第一個句子的每個標記中,一個句子B嵌入到第二個句子的每個標記中,對于單個句子,只是用句子A嵌入。

?

  • 預訓練任務

1、任務#1:Masked LM

文章認為雙向語言模型比單向語言模型功能更強大,為了訓練雙向語言模型,文章采取的方法為隨機屏蔽一定比例的輸入令牌,然后僅預測那些被屏蔽的令牌,并將這其稱為“Masked LM”(MLM),這種做法與CBOW不謀而合。

雖然可以此方法構建雙向預訓練模型,但這種方法有兩個缺點。

首先,預訓練和微調之間不匹配,因為[MASK]令牌在微調期間從未出現。為了減輕這種影響,文章提出并不總是用實際的[MASK]令牌替換“掩蔽”詞。相反,訓練數據生成器隨機選擇15%的令牌,然后執行以下過程:

(1)80%的時間:用[MASK]標記替換單詞

(2)10%的時間:用隨機單詞替換單詞

(3)10%的時間:保持單詞不變

?

Transformer編碼器不知道它將被要求預測哪些單詞或哪些單詞已被隨機單詞替換,因此它被迫保持每個輸入標記的分布式上下文表示。此外,因為隨機替換只發生在所有令牌的1.5%(即15%的10%),這似乎不會損害模型的語言理解能力。

第二個缺點是每批中只預測了15%的令牌,這表明模型可能需要更多的預訓練步驟才能收斂。

?

2、任務#2:NSP

?

許多重要的下游任務都是基于理解兩個文本句子之間的關系,而這兩個文本句子并不是由語言建模直接捕獲的。為了訓練理解句子關系的模型,文章預先訓練了一個可以從任何單語語料庫生成的二值化的下一個句子預測任務。具體地,當為每個預訓練示例選擇句子A和B時,50%的時間B是跟隨A的實際下一句子,并且50%的時間是來自語料庫的隨機句子。

?

實驗

文章將介紹11個NLP任務的BERT微調結果:

1、GLUE結果

2、SQuAD v1.1

3、SQuAD v2.0

4、SWAG

總結

由于語言模式轉換學習的經驗改進表明,豐富的、無監督的預訓練是許多語言理解系統的一個組成部分。特別是,這些結果使得即使是低資源任務也能從非常深的單向體系結構中受益。文章的主要貢獻是將這些發現進一步推廣到深度雙向架構,允許相同的預訓練模型成功解決一系列廣泛的NLP任務。



?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | BERT:Pre-training of Deep Bidirectional Transformers的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。