日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

全面改进Transformer类预训练模型,自然语言任务超越BERT

發(fā)布時(shí)間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 全面改进Transformer类预训练模型,自然语言任务超越BERT 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

近日 arXiv 上一篇深度學(xué)習(xí)文章引起業(yè)內(nèi)廣泛關(guān)注:

論文標(biāo)題:SegaBERT: Pre-training of Segment-aware BERT

論文鏈接:https://arxiv.org/abs/2004.14996

薄言 RSVP.ai 聯(lián)合加拿大滑鐵盧大學(xué)和北京大學(xué)提出全新預(yù)訓(xùn)練模型 SegaBERT,用以改進(jìn)基于 Transformer 的預(yù)訓(xùn)練過程,在多種自然語言任務(wù)上全面超越 BERT。

預(yù)訓(xùn)練語言模型

語言模型(Language Modeling)作為自然語言領(lǐng)域經(jīng)典的序列建模任務(wù),已有數(shù)十年的研究歷史。

近年來,因其自監(jiān)督的特性備受學(xué)術(shù)界與工業(yè)界關(guān)注,相繼涌現(xiàn)出 GPT2、BERT、RoBERTa、XLNET 等一系列預(yù)訓(xùn)練語言模型,不斷刷新自然語言各類任務(wù)榜單。預(yù)訓(xùn)練+微調(diào)模式已然成為自然語言處理領(lǐng)域的新范式。

有趣的是,這些不斷刷新各類排名榜單的預(yù)訓(xùn)練模型無一例外都采用了Transformer(Vaswani ?et ?al., ?2017)架構(gòu)。該架構(gòu)自 2017 年提出以來風(fēng)靡自然語言領(lǐng)域,因其高效的自注意力機(jī)制,逐步替代傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)。

為了編碼輸入序列中詞語之間的位置關(guān)系,Transformer 需要給每個(gè)輸入 token 構(gòu)建一個(gè)位置向量。每個(gè)位置向量表達(dá)了當(dāng)前 token 在輸入序列中的位置,模型通過海量的輸入數(shù)據(jù),來學(xué)習(xí)這些位置向量之間的關(guān)系。

然而,Transformer 的提出時(shí),主要針對(duì)的是機(jī)器翻譯等輸入序列較短的自然語言任務(wù)(從 1~512 個(gè)詞不等),而預(yù)訓(xùn)練語言模型的文本序列通常是篇章級(jí)別的長度(從 512~1024 個(gè)詞不等)。

對(duì)于這種較長的自然語言序列而言,原始的 Transformer 的位置向量很難學(xué)習(xí)到顯著的位置關(guān)系。

比如第 3 位和第 123 位的兩個(gè) token,可能是出現(xiàn)在同一個(gè)文章段落,并且是相鄰的兩個(gè)句子中的兩個(gè)詞;也可能是同一個(gè)文章段落,但非相鄰的句子中的兩個(gè)詞;甚至是同一文章不同段落的兩個(gè)詞。

因此,僅僅指出兩個(gè)詞在整個(gè)輸入文本序列中的位置,不足以表達(dá)它們?cè)谖谋咀髡叩钠陆Y(jié)構(gòu)中的位置關(guān)系。

該文章中提出的 SegaBERT 模型,在 Transformer 原始位置向量的基礎(chǔ)上,對(duì)段落、句子、詞語三者間的位置關(guān)系聯(lián)合建模,更符合語言邏輯習(xí)慣,也更益于模型學(xué)習(xí)。它使得 Transformer 結(jié)構(gòu)對(duì)輸入序列的分隔信息有了更好的建模能力,以此獲得更好的文本編碼表示,用以提升下游自然語言處理任務(wù)。

為了驗(yàn)證這種結(jié)構(gòu)改進(jìn)自身帶來的功效,SegaBERT 模型使用了與 BERT 相同的訓(xùn)練配置,在人類自然語言理解任務(wù) GLUE 的七項(xiàng)任務(wù)中全面超越 BERT,整體平均分?jǐn)?shù)提升 1.2 個(gè)點(diǎn)。

同時(shí),SegaBERT 也在斯坦福大學(xué)的閱讀理解任務(wù) SQUAD 中的 EM score 和 F1 score 兩項(xiàng)指標(biāo)上分別提升 1.2 和 1.5 個(gè)點(diǎn)。

論文介紹

和 BERT 相比,SegaBERT 為每個(gè)輸入的詞/子詞構(gòu)建其段落索引、句子索引和詞索引,同時(shí)在模型中設(shè)置段落位置向量、句子位置向量和詞位置向量。通過位置索引和位置向量為模型輸入序列提供位置向量表示,如圖 2 所示:

▲圖2. 模型輸入

相比 BERT 中使用 512 個(gè)詞位置索引對(duì)輸入序列中每個(gè)詞進(jìn)行位置標(biāo)示,SegaBERT 采用 50 個(gè)段落位置索引、100 個(gè)句子位置索引和 256 個(gè)詞位置索引,為輸入序列中的每個(gè)詞標(biāo)示其三重位置信息。

即為每個(gè)詞賦予一個(gè)三元組位置向量,分別包含其所在段落位置索引、所在句子在相應(yīng)段落中的位置索引及該詞在其所在句子內(nèi)的位置索引。這樣,SegaBERT 在進(jìn)行文本編碼時(shí),能夠做到片段感知(segment-aware),捕捉到更豐富的篇章結(jié)構(gòu)信息。

因此,SegaBERT 在預(yù)訓(xùn)練階段,能利用更豐富的位置表征,學(xué)習(xí)到信息更豐富的上下文表示。這樣的改進(jìn),提升了預(yù)訓(xùn)練語言模型的文本編碼能力,使其在微調(diào)階段得到更完善的句子/篇章表示,進(jìn)而提升下游任務(wù)的預(yù)測效果。

通過使用 Tesla V100 16 卡機(jī),SegaBERT 預(yù)訓(xùn)練了 SegaBERT-base 模型和 SegaBERT-large 模型,分別采用 12 層 Transformer、768 維隱層表示、12 個(gè)多頭注意力與 24 層 Transformer、1024 維隱層表示、24 個(gè)多頭注意力。

其中,SegaBERT-base 模型只使用了 wikipedia 數(shù)據(jù)(12GB)進(jìn)行訓(xùn)練,訓(xùn)練步數(shù)為 500K;而 SegaBERT-large 模型則使用了 wikibooks 數(shù)據(jù)(16GB),訓(xùn)練步數(shù)為 1M。

在訓(xùn)練任務(wù)上,SegaBERT 采用了和 BERT 相同的 MLM(掩碼語言模型)任務(wù),即對(duì)輸入的 512 個(gè) token 進(jìn)行隨機(jī)掩碼。通過模型訓(xùn)練,對(duì)這些被掩碼的位置進(jìn)行預(yù)測,還原其原本的文本內(nèi)容。值得注意的是,SegaBERT 并沒有引入其他輔助任務(wù),例如 NSP(下句預(yù)測)等。

實(shí)驗(yàn)結(jié)果

SegaBERT 采用同 BERT 相同的參數(shù)量、預(yù)訓(xùn)練數(shù)據(jù)與訓(xùn)練超參與進(jìn)行語言模型預(yù)訓(xùn)練。其 Large 模型在人類自然語言理解任務(wù) GLUE 中,七項(xiàng)任務(wù)超越 BERT,整體平均分?jǐn)?shù)提升 1.2 個(gè)點(diǎn)。

除此之外,在斯坦福大學(xué)的閱讀理解任務(wù) SQUAD 中,SegaBERT 更是在 F1 score 和 EM score 上分別提升 1.2 和 1.5 個(gè)點(diǎn),更是超越 KT-NET(基于 BERT 進(jìn)行融合外部知識(shí)庫的微調(diào)模型)、StructBERT(多種輔助任務(wù)參與預(yù)訓(xùn)練的改進(jìn)版 BERT)和 BERT_DA(利用數(shù)據(jù)增廣進(jìn)行微調(diào)的 BERT)。

同時(shí),為了說明添加的段落位置表示和句子位置表示的有效性,該文章還進(jìn)行了在 BERT 原本的 512 個(gè)詞位置索引的基礎(chǔ)上,添加 50 個(gè)段落位置索引和 128 個(gè)句子位置索引的對(duì)比實(shí)驗(yàn)(對(duì)應(yīng)下表中的實(shí)驗(yàn)組第二列 BERT with P.S.)。

這里需要說明的是,BERT 中的詞位置索引是該詞在整個(gè)輸入的長度為 512 的序列中的絕對(duì)位置,而 SegaBERT 中詞位置索引是該詞在其所在句子中的相對(duì)位置。

可以看到,該組實(shí)驗(yàn)在除 CoLA 外的其余 7 項(xiàng) GLUE 任務(wù)和閱讀理解 SQUAD 任務(wù)相比于原始的 BERT 均有明顯的提升,其中 SQUAD 任務(wù)的結(jié)果與 SegaBERT 相近。

這組實(shí)驗(yàn)表明,簡單的段落和句子的位置表征引入,就能起到提升預(yù)訓(xùn)練語言模型的效果。

在 Transformer 和預(yù)訓(xùn)練語言模型成為 NLP 標(biāo)準(zhǔn)范式的今天,SegaBERT 通過重新定義 Transformer 底層輸入的位置表征,在與 BERT 采用相同的預(yù)訓(xùn)練數(shù)據(jù)、計(jì)算資源與模型規(guī)模條件下,取得了較為明顯的提升效果。

值得注意的是,這種新的位置表征方法并非僅限于改進(jìn) BERT,而是可以推廣且應(yīng)用到所有利用 Transformer 結(jié)構(gòu)進(jìn)行預(yù)訓(xùn)練語言模型的工作中。可以預(yù)見的是,作為第一篇研究 Transformer 輸入片段多層次位置表征的論文,其位置表征問題會(huì)逐步成為預(yù)訓(xùn)練語言模型與 Transformer 結(jié)構(gòu)的未來研究方向。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的全面改进Transformer类预训练模型,自然语言任务超越BERT的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。