270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG
作者|機(jī)器之心編輯部
?來源|機(jī)器之心
經(jīng)歷「大煉模型」后,人工智能領(lǐng)域正進(jìn)入「煉大模型」時(shí)代。自去年 OpenAI 發(fā)布英文領(lǐng)域超大規(guī)模預(yù)訓(xùn)練語言模型 GPT-3 后,中文領(lǐng)域同類模型的訓(xùn)練進(jìn)程備受關(guān)注。今日,阿里達(dá)摩院發(fā)布了 270 億參數(shù)、1TB + 訓(xùn)練數(shù)據(jù)的全球最大中文預(yù)訓(xùn)練語言模型 PLUG,并以 80.614 的分?jǐn)?shù)刷新了中文語言理解評(píng)測(cè)基準(zhǔn) CLUE 分類榜單歷史紀(jì)錄。
自 2018 年谷歌發(fā)布 BERT 以來,預(yù)訓(xùn)練模型(Pre-trained Models, PTMs)逐漸成為自然語言處理領(lǐng)域的主流。2020 年 5 月,OpenAI 發(fā)布了擁有 1750 億參數(shù)量的預(yù)訓(xùn)練模型 GPT-3。作為一個(gè)語言生成模型,GPT-3 不僅能夠生成流暢自然的文本,還能完成問答、翻譯、創(chuàng)作小說等一系列 NLP 任務(wù),甚至進(jìn)行簡(jiǎn)單的算術(shù)運(yùn)算,并且其性能在很多任務(wù)上都超越相關(guān)領(lǐng)域的專有模型,達(dá)到 SOTA 水平。
在這樣的發(fā)展態(tài)勢(shì)下,構(gòu)建以中文為核心的超大規(guī)模預(yù)訓(xùn)練模型及生態(tài)勢(shì)在必行。
4 月 19 日,阿里達(dá)摩院發(fā)布了中文社區(qū)最大規(guī)模預(yù)訓(xùn)練語言模型 PLUG(Pre-training for Language Understanding and Generation)。該模型參數(shù)規(guī)模達(dá) 270 億,集語言理解與生成能力于一身,在小說創(chuàng)作、詩(shī)歌生成、智能問答等長(zhǎng)文本生成領(lǐng)域表現(xiàn)突出,其目標(biāo)是通過超大模型的能力,大幅提升中文 NLP 各類任務(wù)的表現(xiàn),取得超越人類表現(xiàn)的性能。
從技術(shù)上來看,阿里達(dá)摩院的 PLUG 與 GPT-3 類似,有望廣泛應(yīng)用于文本生成領(lǐng)域,成為「萬能寫作神器」。較 GPT-3 改進(jìn)的是,PLUG 設(shè)計(jì)了一個(gè)簡(jiǎn)潔的模型框架,集成了達(dá)摩院自研的語言理解及語言生成雙模型,通過構(gòu)建輸入文本雙向理解能力,顯著提升了輸出文本的相關(guān)性。在語言理解任務(wù)上,PLUG 以 80.614 的分?jǐn)?shù)刷新了 CLUE 分類榜單記錄;在語言生成任務(wù)上,PLUG 多項(xiàng)應(yīng)用數(shù)據(jù)較業(yè)內(nèi)最優(yōu)水平提升了 8% 以上。
4 月 19 日,PLUG 刷新 CLUE 分類榜單紀(jì)錄,排名僅次于「人類」。
據(jù)了解,PLUG 采用了 1TB 以上高質(zhì)量中文文本訓(xùn)練數(shù)據(jù),涵蓋新聞、小說、詩(shī)歌、問答等廣泛類型及領(lǐng)域,其模型訓(xùn)練依托了阿里云 EFLOPS 高性能 AI 計(jì)算集群。接下來,PLUG 將擴(kuò)大參數(shù)規(guī)模至 2000 億級(jí),并進(jìn)一步提升文本生成質(zhì)量。
在超大規(guī)模預(yù)訓(xùn)練模型領(lǐng)域,除了以中文為核心的 PLUG 外,達(dá)摩院、阿里云計(jì)算平臺(tái)團(tuán)隊(duì)還聯(lián)合智源研究院、清華大學(xué)發(fā)布了面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型「文匯」,以及聯(lián)合清華大學(xué)發(fā)布了超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型「M6」。此外,達(dá)摩院宣布近期將開源阿里巴巴語言模型體系部分重要模型。
阿里達(dá)摩院語言技術(shù)實(shí)驗(yàn)室負(fù)責(zé)人司羅表示:「達(dá)摩院 NLP 團(tuán)隊(duì)將進(jìn)一步攻克 NLP 領(lǐng)域科研難題,完善中文及跨語言人工智能基礎(chǔ)設(shè)施,讓 AI 沒有難懂的語言,并探索通用人工智能之路。」
270 億參數(shù)、1TB + 訓(xùn)練數(shù)據(jù),全球最大中文預(yù)訓(xùn)練模型 PLUG
PLUG 超大規(guī)模預(yù)訓(xùn)練中文理解 & 生成統(tǒng)一模型,是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型,集語言理解與生成能力于一身。旨在通過超大模型的能力,大幅度提升中文 NLP 在各大任務(wù)的表現(xiàn),其性能超越人類。
?
相較于 Open AI 的 GPT-3 等其他大規(guī)模生成模型,PLUG 具備以下獨(dú)特優(yōu)勢(shì):
?
PLUG 是目前中文社區(qū)最大規(guī)模的純文本預(yù)訓(xùn)練語言模型;
PLUG 集語言理解與生成能力于一身,在語言理解(NLU)任務(wù)上,以 80.614 的得分刷新了 Chinese GLUE 分類榜單的新記錄排名第一;在語言生成(NLG)任務(wù)上,在多項(xiàng)業(yè)務(wù)數(shù)據(jù)上較 SOTA 平均提升 8% 以上;
PLUG 可為目標(biāo)任務(wù)做針對(duì)性優(yōu)化,通過利用下游訓(xùn)練數(shù)據(jù)微調(diào)模型使其在特定任務(wù)上生成質(zhì)量達(dá)到最優(yōu),彌補(bǔ)之前其它大規(guī)模生成模型 few-shot inference 的生成效果不足,可應(yīng)用于實(shí)際生成任務(wù)上;
PLUG 采用了大規(guī)模的高質(zhì)量中文訓(xùn)練數(shù)據(jù)(1TB 以上),同時(shí),PLUG 采用 encoder-decoder 的雙向建模方式,因此,在傳統(tǒng)的 zero-shot 生成的表現(xiàn)上,無論是生成的多樣性、領(lǐng)域的廣泛程度,還是生成長(zhǎng)文本的表現(xiàn),較此前的模型均有明顯的優(yōu)勢(shì)。
目前,PLUG 已經(jīng)開放了體驗(yàn)功能供學(xué)術(shù)領(lǐng)域試用。
測(cè)試地址:
https://nlp.aliyun.com/portal#/BigText_chinese
技術(shù)細(xì)節(jié)
?
此前,達(dá)摩院機(jī)器智能實(shí)驗(yàn)室自研的 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 均在各自領(lǐng)域取得了 SOTA 的效果。簡(jiǎn)單來說,StructBERT 模型通過加強(qiáng)句子級(jí)別(Sentence Structural Objective)和詞級(jí)別(Word Structural Objective)兩個(gè)層次的訓(xùn)練目標(biāo)對(duì)語言結(jié)構(gòu)信息的建模,加強(qiáng)模型對(duì)語法的學(xué)習(xí)能力。PALM 模型則結(jié)合了 Autoencoding 和 Autoregression 兩種預(yù)訓(xùn)練方式,引入 Masked LM 目標(biāo)來提升 encoder 的表征能力,同時(shí)通過預(yù)測(cè)文本后半部分來提升 decoder 的生成能力。
此次大規(guī)模語言模型的訓(xùn)練,達(dá)摩院團(tuán)隊(duì)汲取二者所長(zhǎng),提出了一個(gè)簡(jiǎn)單的框架,用來進(jìn)行 NLU&NLG 聯(lián)合訓(xùn)練。相比于 GPT 系列模型,該大規(guī)模生成模型以 StructBERT 作為 encoder,具有很強(qiáng)的輸入文本雙向理解能力,從而可以生成和輸入更相關(guān)的內(nèi)容。
?
整個(gè)訓(xùn)練流程分為兩個(gè)階段:
首先在第一階段,達(dá)摩院團(tuán)隊(duì)訓(xùn)練了一個(gè) 24 layers/8192 hidden size 的標(biāo)準(zhǔn) StructBERT 模型作為 encoder。這個(gè)過程共計(jì)訓(xùn)練了 300B tokens 的訓(xùn)練數(shù)據(jù),規(guī)模與 GPT-3 的訓(xùn)練規(guī)模相當(dāng);
在第二階段,達(dá)摩院團(tuán)隊(duì)將這個(gè) encoder 用于生成模型的初始化,并外掛了一個(gè) 6 layers / 8192 hidden size 的 decoder,在訓(xùn)練生成模型的過程中,在 encoder 端和 decoder 端均隨機(jī)確定長(zhǎng)度 [32, 512] 進(jìn)行數(shù)據(jù)采樣,確保適應(yīng)下游廣泛的生成任務(wù)。這一階段共計(jì)訓(xùn)練了 100B tokens 的訓(xùn)練數(shù)據(jù),前 90% 的訓(xùn)練中,團(tuán)隊(duì)保留了 Masked LM 任務(wù)以保持模型的 NLU 能力,后 10% 的訓(xùn)練中,去掉 MLM 任務(wù)進(jìn)行微調(diào),以使得生成的 PPL 降到更低,能取得更好的生成效果。
PLUG 生成示例展示
PLUG 生成模型有著很強(qiáng)的長(zhǎng)文本生成和建模能力,相比于 GPT 系列模型的單向建模,PLUG 對(duì)輸入的理解是雙向建模的,因此能夠在給定小段輸入的條件下,生成和輸入內(nèi)容相關(guān)且信息量豐富的長(zhǎng)文本。
在小說散文續(xù)寫、詩(shī)歌生成、自由創(chuàng)作等多場(chǎng)景下的生成結(jié)果顯示出了 PLUG 模型的強(qiáng)大性能。此前,阿里巴巴深度語言模型體系已經(jīng)覆蓋了多模態(tài)語言模型 StructVBERT、多語言模型 VECO、生成式語言模型 PALM 等 6 大自研模型,并登頂了多個(gè)國(guó)際賽事和榜單。達(dá)摩院此次發(fā)布的 PLUG 模型,為阿里巴巴深度語言模型體系又增添了一員大將。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工行七星级客户需要什么条件
- 下一篇: 重疾险可以重复买吗