以网易严选为例,人工智能实战系列之预训练语言模型
導(dǎo)讀:隨著Bert的發(fā)布,預(yù)訓(xùn)練 ( pre-train ) 成為NLP領(lǐng)域最為熱門的方向之一,大規(guī)模的無監(jiān)督語料加上少量有標(biāo)注的語料成為了NLP模型的標(biāo)配。本文將介紹幾種常見的語言模型的基本原理和使用方式,以及語言模型在網(wǎng)易嚴(yán)選NLP業(yè)務(wù)上的實(shí)踐,包括分類、文本匹配、序列標(biāo)注、文本生成等。
01
前言
文本的表征經(jīng)歷了漫長(zhǎng)的發(fā)展歷程,從最簡(jiǎn)單經(jīng)典的bow詞袋模型、以LDA為代表的主題模型、以word2vec為代表的稠密向量模型、到現(xiàn)在以Bert為代表的通用語言模型。詞語是文本細(xì)粒度的表達(dá),早期的預(yù)訓(xùn)練詞向量雖簡(jiǎn)單易用,但無法解決一詞多義的問題。近年來,基于大規(guī)模上下文語料,訓(xùn)練的通用語言模型,可以產(chǎn)出更細(xì)致的語義表征向量,相同的詞在不同的語境中能抽取出不同的語義向量。
在通用常見的NLP任務(wù)中,數(shù)據(jù)標(biāo)注是不能缺少的重要環(huán)節(jié)。數(shù)據(jù)的量級(jí)及質(zhì)量會(huì)直接影響任務(wù)的效果。現(xiàn)實(shí)條件下,數(shù)據(jù)標(biāo)注的成本往往很高,但好在我們擁有大量的無標(biāo)注的語料。因此,基于無監(jiān)督的海量語料訓(xùn)練一個(gè)通用的語言模型,然后針對(duì)不同的NLP任務(wù),進(jìn)行少量數(shù)據(jù)標(biāo)注后,再對(duì)模型進(jìn)行微調(diào)成為了發(fā)展的趨勢(shì)。
02
模型結(jié)構(gòu)
我們選取最具代表性的三個(gè)語言模型: ELMO[1]、GPT[2]、BERT[3] 進(jìn)行對(duì)比,如下表所示。
總結(jié)
以上是生活随笔為你收集整理的以网易严选为例,人工智能实战系列之预训练语言模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 运筹学最优化理论系列概念-单纯形法原理解
- 下一篇: tableau实战系列(十七)-如何将