日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

通过预训练提升语言理解

發(fā)布時間:2024/7/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 通过预训练提升语言理解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

官方地址:https://blog.openai.com/language-unsupervised/

文章:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

代碼:https://github.com/openai/finetune-transformer-lm


本文利用Transformer和非監(jiān)督預(yù)訓(xùn)練結(jié)合的方法,提出了一種能用于各種NLP任務(wù)的預(yù)訓(xùn)練框架,實驗結(jié)果表明該模型使12項NLP任務(wù)中的9項做到了state-of-art的結(jié)果。這說明非監(jiān)督預(yù)訓(xùn)練對提升NLP任務(wù)的監(jiān)督學(xué)習(xí)有很大幫助。

?

Background

傳統(tǒng)的NLP問題往往受制于標注數(shù)據(jù)太少,但未標注的文本數(shù)據(jù)則非常多,因此非監(jiān)督學(xué)習(xí)可以很好地利用這些未標注的文本數(shù)據(jù)。而對于有大量標注數(shù)據(jù)的NLP問題,非監(jiān)督學(xué)習(xí)到的特征表示也可以極大地提高這些NLP問題的準確率,對此一個比較有力的證明就是預(yù)訓(xùn)練好的詞向量對提升NLP任務(wù)有很大的幫助。但詞向量的局限性在于,對于不同的NLP任務(wù),我們所需要的詞的特征表示可能是不一樣的,而即便是幾百維的詞向量也難以包含這些信息用于所有的NLP任務(wù)。因此,我們需要用預(yù)訓(xùn)練的模型來提升NLP任務(wù)的性能。

?

Challenge

對于設(shè)計一個預(yù)訓(xùn)練模型,主要存在兩方面的挑戰(zhàn),一個是預(yù)訓(xùn)練優(yōu)化的任務(wù)目標,例如本文中的目標是傳統(tǒng)的LanguageModel,即用上文信息預(yù)測下一個出現(xiàn)的詞,而BERT中的目標是MaskedLanguage Model + next sentence prediction。另一個挑戰(zhàn)是預(yù)訓(xùn)練模型如何遷移到下游任務(wù)的過程,最主要的方式是模型結(jié)構(gòu)的調(diào)整,但也包含一些學(xué)習(xí)方式的改變、附屬學(xué)習(xí)目標的設(shè)立等其他手段。

?

Model

模型主要分為三個部分,分別是 Unsupervised pre-training、Supervised fine-tuning、Task-specific input transformations Experiment。整個模型結(jié)構(gòu)如下圖所示:

Unsupervised pre-training

整個預(yù)訓(xùn)練模型采用傳統(tǒng)的語言模型的方式,所以其目標函數(shù)為:

從上面的模型結(jié)構(gòu)圖中可以看到,預(yù)訓(xùn)練模型框架主要采用了多層 Transformer Decoder 的結(jié)構(gòu),具體來說就是:


其中各個變量代表的意義為

???????U: context vector of tokens

???????We: token embedding matrix

???????Wp: position embedding matrix

???????H is bridge of the two components

由于采用的是傳統(tǒng)的語言模型,因此有


對比 BERT 和 ELMo 幾個經(jīng)典的NLP預(yù)訓(xùn)練模型,可以看到,BERT主要在本文的GPT模型上加上一些小改進:


Supervised fine-tuning

和視覺任務(wù)類似地,當在做監(jiān)督學(xué)習(xí)fine-tuning時,只需把非監(jiān)督預(yù)訓(xùn)練模型的最后一層換為一個新的未訓(xùn)練的softmax分類器即可


所以此時的loss即為


附屬目標函數(shù)為


這個附屬目標函數(shù)結(jié)合了預(yù)訓(xùn)練過程中的loss,這樣做的好處為:(1)有利于提高模型的泛化能力(2)加快模型的收斂

?

Task-specific input transformations Experiment

在預(yù)訓(xùn)練模型遷移到不同NLP任務(wù)的過程中,由于任務(wù)輸入輸出的不同,模型也要做出相應(yīng)的調(diào)整。本文所進行的實驗任務(wù)主要分為四大類:分類任務(wù)、推理任務(wù)、語義相似性任務(wù)、QA類的任務(wù)(多選題任務(wù)),如下圖所示,其中start、extract表示開始符和終止符。


分類任務(wù)和預(yù)訓(xùn)練模型結(jié)構(gòu)保持一致。

推理任務(wù)中間加了一個delimiter,將推理任務(wù)輸入的premise和hypothesis分開,同時保持了其語序一致。

語義相似性任務(wù)和推理任務(wù)類似,但由于其語義沒有前后的因果關(guān)系,為保持text1和text2地位相等,所以用了兩個模型,最后用element-wise地相加把它們結(jié)合起來。

QA任務(wù)中context由document和question拼接而成,對每個answer分別進行配對,然后分別輸入到模型中,最后用一個softmax layer進行歸一化。

?

Experiment

本文進行的12項NLP任務(wù)分別為:


推理任務(wù)的實驗結(jié)果:


QA任務(wù)的實驗結(jié)果:


分類任務(wù)和語義相似性任務(wù)的實驗結(jié)果:


12項實驗中9項超過當前最好準確率,其中在 Stories Cloze Test上提高了8.9%,在RACE上提高了5.7%,都是比較顯著的提高。

?

楊海宏,浙江大學(xué)直博生,研究方向:知識問答與推理。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。

?

點擊閱讀原文,進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的通过预训练提升语言理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。