论文阅读笔记(一)【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch(未完)
學(xué)習(xí)內(nèi)容
題目: 自然語(yǔ)言從零開(kāi)始 Natural Language Processing (Almost) from Scratch
2021年7月28日 1-5頁(yè)
這將是一個(gè)長(zhǎng)期的過(guò)程,因?yàn)楸疚拈L(zhǎng)45頁(yè);
每天給自己定為5頁(yè)的任務(wù)量!
由于剛開(kāi)始接觸知識(shí)圖譜,尚未學(xué)習(xí)NLP語(yǔ)言,理解較為粗淺,僅僅閱讀了通識(shí)部分,算法章節(jié)待基礎(chǔ)學(xué)完再去理解。
摘要
- 方法:
一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法,可以應(yīng)用于各種自然語(yǔ)言處理任務(wù),包括詞性標(biāo)注、組塊、命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注。 - 模型:
這種多功能性是通過(guò)嘗試避免特定于任務(wù)的工程,從而忽略了大量的先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)的。 - 數(shù)據(jù)集:
大量未標(biāo)記的數(shù)據(jù)集。
介紹
基礎(chǔ)語(yǔ)料庫(kù)的由來(lái):
沒(méi)有專門(mén)的結(jié)構(gòu)可以表示整句話,所以一句話必須提取簡(jiǎn)單表示的簡(jiǎn)化目標(biāo)(如三元組)。
我們通過(guò)特定程序獲取語(yǔ)料庫(kù),它們可以描述句法信息(例如,詞性標(biāo)注、組塊和語(yǔ)法分析)或語(yǔ)義信息(例如,詞義消歧、語(yǔ)義角色標(biāo)注、命名實(shí)體提取和回指消解),這也構(gòu)成了NLP真實(shí)世界的基礎(chǔ)。
現(xiàn)在NLP存在的問(wèn)題:
現(xiàn)在大多數(shù)都是通過(guò)線性模型應(yīng)用于特定特征來(lái)解決單一的benchmark問(wèn)題,不具有泛化能力;
我們的方法:
我們使用一個(gè)能夠發(fā)現(xiàn)足夠的內(nèi)部表征的單一學(xué)習(xí)系統(tǒng),事實(shí)上,我們將基準(zhǔn)視為學(xué)習(xí)過(guò)程中發(fā)現(xiàn)的內(nèi)部表征相關(guān)性的間接測(cè)量,并且我們假設(shè)這些中間表征比任何基準(zhǔn)都更普遍。而且我們無(wú)法使用大量的語(yǔ)言知識(shí),“幾乎從零開(kāi)始”。
2. 基準(zhǔn)任務(wù)(The Benchmark Tasks)
當(dāng)前的四種NLP任務(wù):詞性標(biāo)記(POS)、組塊(CHUNK)、命名實(shí)體識(shí)別(NER)和語(yǔ)義角色標(biāo)記(SRL)
四個(gè)NLP任務(wù)的最新系統(tǒng)。POS的每字準(zhǔn)確率和CHUNK、NER和SRL的F1分?jǐn)?shù)反映了性能。黑體字的系統(tǒng)在本文的其余部分將被稱為基準(zhǔn)系統(tǒng)。2.1 詞性標(biāo)注(Part-Of-Speech Tagging )
POS的目的是給每個(gè)詞加上一個(gè)獨(dú)特的標(biāo)記,以表明它的句法作用,例如復(fù)數(shù)名詞、副詞等。
最優(yōu)算法:最好的POS分類器是基于文本窗口(windows of text)訓(xùn)練的分類器,然后在推理過(guò)程中輸入雙向解碼算法,在雙向依賴網(wǎng)絡(luò)中使用最大熵分類器和推理(Heckerman等人,2001),每個(gè)詞的準(zhǔn)確率達(dá)到97.24%。
(什么叫做基于文本窗口訓(xùn)練的分類器????雙向解碼算法)
2.2 分塊(chunking)
語(yǔ)塊分析也被稱為淺層句法分析,其目的是用名詞或動(dòng)詞短語(yǔ)(NP或VP)等句法成分來(lái)標(biāo)記句子片段。每個(gè)單詞只分配一個(gè)唯一的標(biāo)記,通常編碼為一個(gè)開(kāi)始?jí)K(例如,GB-NP,開(kāi)始?jí)K名詞短語(yǔ))或內(nèi)部塊標(biāo)記(例如,GI-NP,內(nèi)部塊名詞短語(yǔ))
最優(yōu)算法:CoNLL 2000基于SVMs,每個(gè)支持向量機(jī)以成對(duì)分類的方式訓(xùn)練,并在感興趣的單詞周圍提供一個(gè)窗口,其中包含位置和單詞作為特征,以及周圍的標(biāo)簽。在測(cè)試時(shí)執(zhí)行動(dòng)態(tài)規(guī)劃。
CoNLL: 計(jì)算機(jī)自然語(yǔ)言學(xué)習(xí)會(huì)議,是ACL的在Natural Language learning方面的分支會(huì)議。
(感興趣的單詞周圍設(shè)置窗口??)
2.3 命名實(shí)體識(shí)別(Named Entity Recognition)
NER將句子中的原子元素分為“人”或“地點(diǎn)”等類別。在分塊任務(wù)中,每個(gè)單詞都被分配一個(gè)標(biāo)記,前綴是實(shí)體開(kāi)頭或內(nèi)部的指示符。
最優(yōu)算法:NER CoNLL2003,,他們使用各種機(jī)器學(xué)習(xí)分類器的組合,他們挑選的特征包含了單詞、詞性標(biāo)簽、POS標(biāo)簽、前綴和后綴、一個(gè)大的地名索引(并不是由比賽提供的)和在更豐富的數(shù)據(jù)集上訓(xùn)練的另外兩個(gè)NER分類器的輸出。
2.4 語(yǔ)義角色標(biāo)注(Semantic Role Labeling)
SRL旨在賦予句子的句法成分一個(gè)語(yǔ)義角色。也就是說(shuō)句子中的某些信息特定的標(biāo)簽。
比如
中我們就可以給定主語(yǔ)、謂詞和賓語(yǔ)不同的標(biāo)注。當(dāng)然,如果一個(gè)句子中有多個(gè)動(dòng)詞,一些單詞可能有多個(gè)標(biāo)記。
最先進(jìn)的SRL系統(tǒng)包括幾個(gè)階段:生成一個(gè)解析樹(shù),確定哪些解析樹(shù)節(jié)點(diǎn)代表給定動(dòng)詞的參數(shù),最后對(duì)這些節(jié)點(diǎn)進(jìn)行分類以計(jì)算相應(yīng)的SRL標(biāo)記。
最優(yōu)算法: Pradhan et al.(2004)采用這些基本特征并定義其他特征,特別是首詞的speech-tag部分、參數(shù)的預(yù)測(cè)命名實(shí)體類、為動(dòng)詞提供詞義消歧的特征(他們總共添加了12種新特征類型的25種變體)實(shí)現(xiàn)了最好的水平。
2.5 評(píng)估
所有這三個(gè)任務(wù)都是通過(guò)計(jì)算我們的模型產(chǎn)生的chunking的F1分?jǐn)?shù)來(lái)評(píng)估的。POS任務(wù)是通過(guò)計(jì)算每個(gè)單詞的準(zhǔn)確度來(lái)評(píng)估的,就像我們所提到的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試一樣(Toutanova等人,2003)。
2.6 討論
在公開(kāi)挑戰(zhàn)比賽中,使用外來(lái)的頂級(jí)現(xiàn)有系統(tǒng)來(lái)提高效率是無(wú)可厚非的,但是在不同標(biāo)記數(shù)據(jù)已經(jīng)實(shí)現(xiàn)的較高效率的系統(tǒng)對(duì)我們是不能夠有效果的。所以,我們采用上面已經(jīng)驗(yàn)證過(guò)的基準(zhǔn)系統(tǒng)作為我們實(shí)驗(yàn)的基準(zhǔn)參考。
而且復(fù)雜任務(wù)的最佳系統(tǒng)將具有更多的工程特征,也就是說(shuō)POS任務(wù)是最簡(jiǎn)單的,而SRL是最復(fù)雜的,并且為它設(shè)計(jì)了多種特征。 而NLP需要考慮更多的語(yǔ)義理解。
3. 網(wǎng)絡(luò)
以上所有NLP任務(wù)都可以看作是為單詞分配標(biāo)簽的任務(wù)。傳統(tǒng)的NLP都是從句子中提取一組豐富的手工設(shè)計(jì)特征,然后當(dāng)作分類任務(wù)放到含有線性核的SVM中分類。 但是常用的方法中太基于大量的數(shù)據(jù)了。
3.1 標(biāo)記
其中fθ(?))f_\theta{(·)})fθ?(?))是一個(gè)神經(jīng)網(wǎng)絡(luò),lll則是經(jīng)過(guò)了多少層; 我們后面會(huì)介紹每一層。
- 其中A是矩陣,[A](i,j)[A]_{(i,j)}[A](i,j)?表示的是iii和jjj的關(guān)系;
- ?A?idwin\langle A \rangle _i^{d_{win}}?A?idwin??向量,是由concat矩陣A∈Rd1×d2A\in\mathbb{R}^{d_1 \times{d_2}}A∈Rd1?×d2?的ithi^{th}ith列向量周圍dwind_{win}dwin?列向量得到的。特殊情況下,?A?i1\langle A \rangle_i ^ 1?A?i1?表示矩陣AAA的ithi^{th}ith列。 “win” = "window"
- 對(duì)于向量vvv,我們使用[v]i[v]_i[v]i?來(lái)表示向量的第iii個(gè)標(biāo)量。
- 最終元素序列x1,x2,...,xT{x_1 , x_2, ... , x_T}x1?,x2?,...,xT?被寫(xiě)成[x]1T[x]_1 ^ T[x]1T?,句子的ithi^{th}ith元素被表示[x]i[x]_i[x]i?。
3.2 將單詞轉(zhuǎn)換為特征向量
我們結(jié)構(gòu)的關(guān)鍵點(diǎn)就是能夠很好的利用raw words; 只是使用索引不能提供很好信息,所以,我們網(wǎng)絡(luò)的第一層通過(guò)查找表操作將這些單詞索引映射到一個(gè)特征向量中,該特征向量從隨機(jī)初始化開(kāi)始,通過(guò)反向傳播進(jìn)行訓(xùn)練。
更正式地說(shuō),每一個(gè)單詞w∈Dw \in \mathcal{D}w∈D,內(nèi)部的dwrdd_{wrd}dwrd?-維度特征向量表示是由查找表LTW(?)L T_{W}(\cdot)LTW?(?)得來(lái)的:
其中W∈Rdwrd×∣D∣W \in \mathbb{R}^{d_{w r d} \times|\mathcal{D}|}W∈Rdwrd?×∣D∣是要被學(xué)習(xí)的參數(shù)矩陣。?W?w1∈Rdwrd\langle W\rangle_{w}^{1} \in \mathbb{R}^{d_{w r d}}?W?w1?∈Rdwrd?是WWW的wthw^{th}wth列,dwrdd_{wrd}dwrd?單詞的向量長(zhǎng)度(是一個(gè)超參數(shù)). 給定一個(gè)句子或任意序列的TTT個(gè)單詞[w]1Tin?D[w]_{1}^{T} \text { in } \mathcal{D}[w]1T??in?D,查找表層對(duì)序列中的每個(gè)單詞應(yīng)用相同的操作,生成以下輸出矩陣:
然后可以將該矩陣反饋給進(jìn)一步的神經(jīng)網(wǎng)絡(luò)層,如下所示。
3.2.1擴(kuò)展到任何離散特征(其它的特征)
如果您懷疑這些特性對(duì)感興趣的任務(wù)有幫助,那么您可能希望提供文字以外的特性。例如,對(duì)于NER任務(wù),可以提供一個(gè)功能,說(shuō)明一個(gè)單詞是否在地名錄中。另一種常見(jiàn)做法是引入一些基本的預(yù)處理,例如詞干提取或處理大小寫(xiě)。在后一個(gè)選項(xiàng)中,單詞將由三個(gè)離散特征表示:小寫(xiě)詞干詞根、小寫(xiě)詞尾和大寫(xiě)特征。
一般說(shuō)來(lái),我們可以用kkk個(gè)離散特征來(lái)表示一個(gè)詞。w∈D1×?×DKw \in \mathcal{D}^{1} \times \cdots \times \mathcal{D}^{K}w∈D1×?×DK,其中Dk\mathcal{D}^{k}Dk是字典里的第 kthk^{t h}kth 特征。我們?yōu)槊總€(gè)特征關(guān)聯(lián)一個(gè)查找表LTWk(?)L T_{W^{k}}(\cdot)LTWk?(?),參數(shù)是Wk∈Rdwrdk×∣Dk∣where?dwrdk∈NW^{k} \in \mathbb{R}^{d_{w r d}^{k} \times\left|\mathcal{D}^{k}\right|} \text { where } d_{w r d}^{k} \in \mathbb{N}Wk∈Rdwrdk?×∣Dk∣?where?dwrdk?∈N是用戶指定的向量大小。給定一個(gè)單詞www,一個(gè)特征向量維度是dwrd=∑kdwrdkd_{w r d}=\sum_{k} d_{w r d}^{k}dwrd?=∑k?dwrdk?然后通過(guò)連接所有查找表輸出獲得:
單詞序列[w]1T[w]_{1}^{T}[w]1T?的查找表層的矩陣輸出類似于(1),但為每個(gè)離散特征添加了額外的行:
查找表中的這些向量特征有效地學(xué)習(xí)字典中單詞的特征。現(xiàn)在,我們希望使用這些可訓(xùn)練的特征作為輸入,進(jìn)一步構(gòu)建可訓(xùn)練的特征提取器,這些提取器可以表示一組單詞,最后是句子。
3.3從單詞特征向量中提取更高層次的特征
查找表層生成的特征向量需要在神經(jīng)網(wǎng)絡(luò)的后續(xù)層中進(jìn)行組合,以便為句子中的每個(gè)單詞生成標(biāo)記決策。為可變長(zhǎng)度序列中的每個(gè)元素生成標(biāo)記(這里,一個(gè)句子是一個(gè)單詞序列)是機(jī)器學(xué)習(xí)中的一個(gè)標(biāo)準(zhǔn)問(wèn)題。我們考慮兩種常見(jiàn)的方法,標(biāo)簽一個(gè)詞在時(shí)間:窗口方法,和(卷積)句子的方法。
3.3.1 WINDOW APPROACH
窗口方法假設(shè)一個(gè)單詞的標(biāo)記主要依賴于它的相鄰單詞。給定一個(gè)單詞標(biāo)簽,我們考慮一個(gè)固定大小的kszk_{sz}ksz?(超參數(shù))窗口圍繞這個(gè)詞的單詞。窗口中的每個(gè)單詞首先通過(guò)查找表層(1)或(2),生成固定大小dwrd×kszd_{w r d} \times k_{s z}dwrd?×ksz?的單詞特征矩陣。通過(guò)連接每個(gè)列向量,可以將該矩陣視為dwrd×kszd_{w r d} \times k_{s z}dwrd?×ksz?-維向量,這些列向量可以饋送到進(jìn)一步的神經(jīng)網(wǎng)絡(luò)層。更正式地說(shuō),第一個(gè)網(wǎng)絡(luò)層給出的單詞特征窗口可以寫(xiě)成:
Linear Layer :固定大小的向量fθ1f_{\theta}^{1}fθ1?可饋送至一個(gè)或多個(gè)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)層,這些神經(jīng)網(wǎng)絡(luò)層對(duì)其輸入執(zhí)行仿射變換:
其中Wl∈Rnhul×nhul?1and?bl∈RnhulW^{l} \in \mathbb{R}^{n_{h u}^{l} \times n_{h u}^{l-1}} \text { and } b^{l} \in \mathbb{R}^{n_{h u}^{l}}Wl∈Rnhul?×nhul?1??and?bl∈Rnhul?是要學(xué)習(xí)的參數(shù).超參數(shù)nhuln_{h u}^{l}nhul?通常稱為lthl^{t h}lth層的隱藏單位數(shù)。
HardTanh Layer :
激活函數(shù)
其中:
Scoring:最后,我們網(wǎng)絡(luò)的最后一層LLL的輸出大小等于感興趣的任務(wù)可能的標(biāo)簽數(shù)量。然后,由于我們將在本節(jié)后面描述的仔細(xì)選擇的成本函數(shù),每個(gè)輸出都可以解釋為相應(yīng)標(biāo)簽的分?jǐn)?shù)(給定網(wǎng)絡(luò)的輸入)。
Remark 1 (Border Effects): 對(duì)于靠近句子開(kāi)頭或結(jié)尾的單詞,沒(méi)有很好地定義特征窗口(3)。為了避免這個(gè)問(wèn)題,我們?cè)诰渥拥拈_(kāi)頭和結(jié)尾添加了一個(gè)特殊的“PADDING”單詞,重復(fù)了dwin/2d_{win}/2dwin?/2次。這類似于在序列模型中使用“開(kāi)始”和“停止”符號(hào)。
3.3.2SENTENCE APPROACH
我們認(rèn)為句子訓(xùn)練網(wǎng)絡(luò)(圖2)訓(xùn)練SRL。卷積層輸出的“局部”特征數(shù)為每個(gè)字300個(gè)。通過(guò)對(duì)句子應(yīng)用最大值,我們獲得了整個(gè)句子的300個(gè)特征。有趣的是,該網(wǎng)絡(luò)主要圍繞著感興趣的動(dòng)詞(此處為“報(bào)告”)和感興趣的詞(“建議”(左)或“經(jīng)常”(右))捕捉特征。
在實(shí)驗(yàn)部分,我們將看到窗口方法在我們感興趣的大多數(shù)自然語(yǔ)言處理任務(wù)中表現(xiàn)良好。然而,這種方法在SRL中失敗了,在SRL中,單詞的標(biāo)記取決于句子中事先選擇的動(dòng)詞(或者更準(zhǔn)確地說(shuō),謂詞)。如果動(dòng)詞落在窗口之外,就不能期望這個(gè)詞被正確地標(biāo)記。在這種特殊情況下,為一個(gè)單詞添加標(biāo)簽需要考慮整個(gè)句子。當(dāng)使用神經(jīng)網(wǎng)絡(luò)時(shí),解決這個(gè)問(wèn)題的自然選擇變成了卷積方法,首先由Waibel等人(1989)引入,在文獻(xiàn)中也稱為時(shí)滯神經(jīng)網(wǎng)絡(luò)(TDNNs)。
下面我們將詳細(xì)描述我們的卷積網(wǎng)絡(luò)。它依次獲取完整的句子,將其傳遞到查找表層(1),通過(guò)卷積層在句子的每個(gè)單詞周圍生成局部特征,將這些特征組合成一個(gè)全局特征向量,然后將其饋送到標(biāo)準(zhǔn)仿射層(4)。在SRL中,對(duì)句子中的每個(gè)單詞和句子中的每個(gè)動(dòng)詞執(zhí)行此操作。因此,有必要在網(wǎng)絡(luò)架構(gòu)中編碼我們?cè)诰渥又锌紤]的動(dòng)詞,以及我們想要標(biāo)記的單詞。為此,句子中位置iii處的每個(gè)單詞都以第3.2.1節(jié)所述的方式增加了兩個(gè)特征。這些特征編碼了相對(duì)距離i?posvi - p o s _ { v }i?posv?和i?poswi - pos _ { w }i?posw?,分別與位置i?posvi-p o s_{v}i?posv?處的所選動(dòng)詞和位置poswpos_wposw?處的要標(biāo)記的單詞相關(guān)。
Convolutional Layer:卷積層可以看作是窗口方法的推廣。用前面的符號(hào),lthl^{th}lth層的ttht^{th}tth列可以計(jì)算為:
其中,權(quán)重矩陣WlW^lWl在序列中的所有窗口ttt中都相同。卷積層圍繞給定序列的每個(gè)窗口提取局部特征。對(duì)于標(biāo)準(zhǔn)仿射層(4),卷積層通常被疊加以提取更高級(jí)別的特征。在這種情況下,每個(gè)層后面必須有一個(gè)非線性(5),否則網(wǎng)絡(luò)將相當(dāng)于一個(gè)卷積層。
Max Layer :輸出(6)的大小取決于輸入網(wǎng)絡(luò)的句子中的字?jǐn)?shù)。為了應(yīng)用后續(xù)的標(biāo)準(zhǔn)仿射層,必須組合由卷積層提取的局部特征向量,以獲得與句子長(zhǎng)度無(wú)關(guān)的固定大小的全局特征向量。傳統(tǒng)卷積網(wǎng)絡(luò)通常在序列(6)的“時(shí)間”ttt上應(yīng)用平均(可能加權(quán))或最大運(yùn)算(這里,“時(shí)間”只是指句子中的位置,這個(gè)術(shù)語(yǔ)源于卷積層的使用,例如,在語(yǔ)音數(shù)據(jù)中,序列隨時(shí)間發(fā)生。)在我們的例子中,平均操作沒(méi)有多大意義,因?yàn)?strong>一般來(lái)說(shuō),句子中的大多數(shù)單詞對(duì)給定單詞的語(yǔ)義角色沒(méi)有任何影響。取而代之的是,我們使用了一種max方法,它強(qiáng)制網(wǎng)絡(luò)為手頭的任務(wù)捕獲卷積層產(chǎn)生的最有用的局部特征(見(jiàn)圖3)。給定一個(gè)矩陣fθl?1f _ { \theta } ^ { l- 1}fθl?1?, 它由卷積層l?1l-1l?1輸出,最大層lll輸出一個(gè)向量fθlf_\theta^lfθl?:
然后可以將該固定大小的全局特征向量饋送到標(biāo)準(zhǔn)仿射網(wǎng)絡(luò)層(4)。與窗口方法一樣,我們最終為給定任務(wù)的每個(gè)可能標(biāo)記生成一個(gè)分?jǐn)?shù)。
Remark2: 卷積運(yùn)算(6)中產(chǎn)生的邊界效應(yīng)與窗口方法(3)中產(chǎn)生的邊界效應(yīng)相同。我們?cè)俅瓮ㄟ^(guò)在句子中填充一個(gè)特殊的單詞來(lái)解決這個(gè)問(wèn)題。
、
3.3.3 TAGGING SCHEMES
對(duì)于所有可能的網(wǎng)絡(luò)輸出層,解釋為compute scores。在窗口方法中,這些標(biāo)記應(yīng)用于位于窗口中心的單詞。在(卷積)句子方法中,這些標(biāo)記應(yīng)用于網(wǎng)絡(luò)輸入中由附加標(biāo)記指定的單詞。POS任務(wù)實(shí)際上包括標(biāo)記每個(gè)單詞的句法角色。然而,剩下的三項(xiàng)任務(wù)將標(biāo)簽與句子片段相關(guān)聯(lián)。這通常是通過(guò)使用特殊的標(biāo)記方案來(lái)識(shí)別段邊界來(lái)實(shí)現(xiàn)的,如表3所示。已經(jīng)定義了幾種這樣的方案(IOB、IOE、IOBES等)總的來(lái)說(shuō),哪種方案更好,沒(méi)有明確的結(jié)論。有時(shí),通過(guò)結(jié)合使用不同標(biāo)記方案訓(xùn)練的分類器(例如。G工藤和松本,2001年)。
各種標(biāo)記方案。標(biāo)記為“X”的段中的每個(gè)單詞都帶有前綴標(biāo)簽,這取決于單詞在段中的位置(開(kāi)始、內(nèi)部、結(jié)束)。還輸出單字段標(biāo)簽。不在標(biāo)記段中的單詞標(biāo)記為“O”。存在IOB(和IOE)方案的變體,其中對(duì)于與具有相同標(biāo)簽“X”的另一段不相鄰的所有段,前綴B(或E)被替換為I。
NER、CHUNK和SRL任務(wù)的gt標(biāo)簽是使用兩種不同的標(biāo)記方案提供的。為了消除這種額外的變化源,我們決定對(duì)所有任務(wù)使用最具表現(xiàn)力的IOBES標(biāo)記方案。例如,在組CHUNK任務(wù)中,我們使用四種不同的標(biāo)記來(lái)描述名詞短語(yǔ)。標(biāo)記“S-NP”用于標(biāo)記包含單個(gè)單詞的名詞短語(yǔ)。另外,標(biāo)簽“B-NP”、“I-NP”和“E-NP”用于標(biāo)記名詞短語(yǔ)的第一個(gè)、中間和最后一個(gè)單詞。另一個(gè)標(biāo)記“O”標(biāo)記不是塊成員的單詞。在測(cè)試過(guò)程中,這些標(biāo)簽隨后被轉(zhuǎn)換為原始的IOB標(biāo)簽方案,并輸入到第2.5節(jié)中提到的標(biāo)準(zhǔn)性能評(píng)估腳本中。
3.4 Training
我們所有的神經(jīng)網(wǎng)絡(luò)都是通過(guò)在訓(xùn)練數(shù)據(jù)上最大化似然,使用隨機(jī)梯度上升來(lái)訓(xùn)練的。如果我們將θ表示為使用訓(xùn)練集TTT訓(xùn)練的網(wǎng)絡(luò)的所有可訓(xùn)練參數(shù),我們希望最大化以下關(guān)于θ的對(duì)數(shù)似然:
其中xxx對(duì)應(yīng)于訓(xùn)練詞窗口或句子及其相關(guān)特征,yyy代表相應(yīng)的標(biāo)記。概率p(?)p(·)p(?)由神經(jīng)網(wǎng)絡(luò)的輸出計(jì)算得出。在本節(jié)中,我們將看到兩種將神經(jīng)網(wǎng)絡(luò)輸出解釋為概率的方法。
3.4.1 WORD-LEVEL LOG-LIKELIHOOD
在這種方法中,句子中的每個(gè)單詞都是獨(dú)立考慮的。給定一個(gè)輸入示例xxx,參數(shù)為θθθ的網(wǎng)絡(luò)輸出一個(gè)分?jǐn)?shù)[fθ(x)]i[ f _ { \theta } ( x ) ] _ { i }[fθ?(x)]i?、 對(duì)于與感興趣的任務(wù)相關(guān)的ithi^{th}ith標(biāo)簽。為了簡(jiǎn)化符號(hào),我們從現(xiàn)在開(kāi)始去掉xxx,改為寫(xiě)[fθ]i]i[ f _ { \theta } ] _ { i } ] _ { i }[fθ?]i?]i?我通過(guò)對(duì)所有標(biāo)簽應(yīng)用softmax(Bridle,1990)操作,該分?jǐn)?shù)可解釋為條件標(biāo)簽概率p(i∣x,θ)p(i | x,θ)p(i∣x,θ):
將log-add操作定義為:
我們可以將一個(gè)訓(xùn)練示例(x,y)的對(duì)數(shù)似然表示為:
雖然這種訓(xùn)練標(biāo)準(zhǔn)(通常稱為交叉熵)被廣泛用于分類問(wèn)題,但在我們的例子中,它可能并不理想,因?yàn)榫渥又幸粋€(gè)單詞的標(biāo)記與其相鄰標(biāo)記之間通常存在相關(guān)性。現(xiàn)在,我們描述另一種常見(jiàn)的神經(jīng)網(wǎng)絡(luò)方法,該方法強(qiáng)制執(zhí)行句子中預(yù)測(cè)標(biāo)記之間的依賴關(guān)系。
3.4.2句子級(jí)對(duì)數(shù)似然法
在諸如Chunking、NER或SRL之類的任務(wù)中,我們知道句子中單詞標(biāo)記之間存在依賴關(guān)系:不僅標(biāo)記以分塊的形式組織,而且一些標(biāo)記不能跟隨其他標(biāo)記。使用單詞級(jí)方法進(jìn)行培訓(xùn)會(huì)丟棄此類標(biāo)簽信息。我們考慮了一個(gè)訓(xùn)練方案,它考慮了句子結(jié)構(gòu):給出了我們的網(wǎng)絡(luò)中所有標(biāo)簽在句子中的所有單詞的預(yù)測(cè),并且給出了從一個(gè)標(biāo)簽到另一個(gè)標(biāo)簽的得分,我們希望在訓(xùn)練期間鼓勵(lì)有效的標(biāo)記路徑,同時(shí)勸阻所有其他路徑。
我們考慮由網(wǎng)絡(luò)輸出的分?jǐn)?shù)矩陣fθ([x]1T)f _ { \theta } ( [ x ] _ { 1 } ^ { T } )fθ?([x]1T?)。與前面一樣,為了簡(jiǎn)化符號(hào),我們刪除了輸入[x]1T[ x ] _ { 1 } ^ { T }[x]1T?。矩陣的元素[fθ]i,t[ f _ { \theta } ] _ { i , t }[fθ?]i,t?是含有θθθ的網(wǎng)絡(luò)在ttht^{th}tth單詞處輸出的分?jǐn)?shù),用于句子[x]1T[x]^T_1[x]1T?和ithi^{th}ith標(biāo)簽。我們引入了一個(gè)過(guò)渡分?jǐn)?shù)[A]i,j[A]_{i,j}[A]i,j?,用于在連續(xù)單詞中從iii標(biāo)記跳到jjj標(biāo)記,以及一個(gè)初始分?jǐn)?shù)[A]i,0[A]_{i,0}[A]i,0?,用于從iii標(biāo)記開(kāi)始。當(dāng)過(guò)渡分?jǐn)?shù)將被訓(xùn)練時(shí)(所有網(wǎng)絡(luò)參數(shù)θ也是如此),我們定義θ=θU{[A]i,j,Vi,j}\theta = \theta U \{ [ A ] _ { i , j } , V i , j \}θ=θU{[A]i,j?,Vi,j}。一個(gè)句子[x]1T[ x ] _ { 1 } ^ { T }[x]1T?在標(biāo)記[i]1T[ i ] _ { 1 } ^ { T }[i]1T?路徑上的得分由轉(zhuǎn)換得分和網(wǎng)絡(luò)得分之和給出:
與單詞級(jí)似然(11)完全一樣,我們使用softmax(9)對(duì)所有標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化,我們使用softmax對(duì)所有可能的標(biāo)簽路徑[j]1T[ j ] _ { 1 } ^ { T }[j]1T?上的分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化,并將結(jié)果比率解釋為條件標(biāo)簽路徑概率。取對(duì)數(shù),因此真實(shí)路徑的條件概率[y]1T[ y ] _ { 1 } ^ { T }[y]1T?由下式給出:
雖然logadd操作(11)中的術(shù)語(yǔ)數(shù)量等于標(biāo)記數(shù)量,但它隨著(13)中句子的長(zhǎng)度呈指數(shù)增長(zhǎng)。幸運(yùn)的是,我們可以利用標(biāo)準(zhǔn)遞歸,在半環(huán)10\text{半環(huán)}^{10}半環(huán)10(R∪{?∞},logadd?,?+?)( R \cup \{ - \infty \} , \text{logadd , + })(R∪{?∞},logadd?,?+?)上的結(jié)合性和分布性,在線性時(shí)間t內(nèi)計(jì)算出。
然后是終止:
我們現(xiàn)在可以在(8)中最大化所有訓(xùn)練對(duì)([x]1T,[y]1T[ x ] _ { 1 } ^ { T } , [ y ] _ { 1 } ^ { T }[x]1T?,[y]1T?)的對(duì)數(shù)似然(13)。
在推理時(shí),給定一個(gè)要標(biāo)記的句子[x]1T[x]^T_1[x]1T?,我們必須找到使句子得分最小化的最佳標(biāo)記路徑(12)。換句話說(shuō),我們必須找到:
維特比算法是這種推理的自然選擇。它對(duì)應(yīng)于執(zhí)行遞歸(14)和(15),但是logadd被max替換,然后通過(guò)每個(gè)max跟蹤最優(yōu)路徑。
Remark 3 (Graph Transformer Networks):我們的方法是針對(duì)圖形變壓器網(wǎng)絡(luò)(GTN)的區(qū)別性前向訓(xùn)練的一個(gè)特例(Bottou等人,1997;樂(lè)存等人,1998年)。對(duì)數(shù)似然(13)可被視為有效路徑上受約束的正向得分(在我們的案例中,只有標(biāo)記路徑)與無(wú)約束的正向得分(15)之間的差異。
Remark 4 (Conditional Random Fields): 等式(12)的一個(gè)重要特征是沒(méi)有歸一化。將所有可能的標(biāo)記的指數(shù)e[fθ]i,te ^ { [ f \theta ] _ { i , t } }e[fθ]i,t?求和并不一定得到一致的效果。如果是這種情況,分?jǐn)?shù)可以被視為條件轉(zhuǎn)移概率的對(duì)數(shù),我們的模型將受到激勵(lì)條件隨機(jī)場(chǎng)(CRF)的標(biāo)簽偏差問(wèn)題的影響(Lafferty et al.,2001)。非標(biāo)準(zhǔn)化評(píng)分應(yīng)與CRF的潛在功能相比較。事實(shí)上,CRF使用線性模型而不是非線性神經(jīng)網(wǎng)絡(luò)最大化相同的可能性(13)。CRF在NLP領(lǐng)域得到了廣泛的應(yīng)用,例如詞性標(biāo)注(Lafferty等人,2001年)、組塊(Sha和Pereira,2003年)、NER(McCallum和Li,2003年)或SRL(Cohn和Blunsom,2005年)。與這些CRF相比,我們利用非線性網(wǎng)絡(luò)學(xué)習(xí)每個(gè)感興趣任務(wù)的適當(dāng)特征。
3.4.3隨機(jī)梯度
通過(guò)迭代選擇隨機(jī)示例(x,y)(x,y)(x,y)并進(jìn)行梯度步進(jìn),實(shí)現(xiàn)隨機(jī)梯度最大化(8)(Bottou,1991):
其中λλλ是所選的學(xué)習(xí)速率。圖1和圖2中描述的神經(jīng)網(wǎng)絡(luò)是一系列層,對(duì)應(yīng)于連續(xù)的函數(shù)組合。神經(jīng)網(wǎng)絡(luò)最終由單詞級(jí)對(duì)數(shù)似然(11)組成,如果使用句子級(jí)對(duì)數(shù)似然(13),則在遞歸(14)中依次組成。因此,可以通過(guò)網(wǎng)絡(luò)、字級(jí)對(duì)數(shù)似然(11)或通過(guò)遞歸(14)應(yīng)用微分鏈規(guī)則來(lái)計(jì)算導(dǎo)數(shù)(16)的分析公式。
Remark 5 (Differentiability, 可微性):我們的成本函數(shù)幾乎在任何地方都是可微的。不可微點(diǎn)的出現(xiàn)是因?yàn)槲覀兪褂昧恕坝病眰鬟f函數(shù)(5),并且因?yàn)槲覀冊(cè)诰渥咏咏W(wǎng)絡(luò)中使用了“最大”層(7)。幸運(yùn)的是,盡管存在這樣的可微性問(wèn)題,隨機(jī)梯度仍然收斂到有意義的局部極小值(Bottou,1991,1998)。遇到不可微性的隨機(jī)梯度迭代被簡(jiǎn)單地跳過(guò)。
Remark6(模塊化方法): 著名的“反向傳播”算法(LeCun,1985;Rumelhart等人,1986)使用鏈?zhǔn)揭?guī)則計(jì)算梯度。鏈規(guī)則也可用于模塊化實(shí)現(xiàn)。我們的模塊對(duì)應(yīng)于圖1和圖2中的方框。根據(jù)Bottou和Gallinari(1991)的建議,給定與其輸出相關(guān)的導(dǎo)數(shù),每個(gè)模塊可以獨(dú)立計(jì)算與其輸入相關(guān)的導(dǎo)數(shù)以及與其可訓(xùn)練參數(shù)相關(guān)的導(dǎo)數(shù)。這使我們能夠輕松構(gòu)建網(wǎng)絡(luò)的變體。有關(guān)梯度計(jì)算的詳細(xì)信息,請(qǐng)參見(jiàn)附錄A。
Remark 7 (Tricks): 已經(jīng)報(bào)道了許多訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技巧(LeCun等人,1998年)。選擇哪一個(gè)往往令人困惑。我們只使用了其中兩種:每個(gè)網(wǎng)絡(luò)層參數(shù)的初始化和更新是根據(jù)該層的“fan-in”完成的,即用于計(jì)算該層每個(gè)輸出的輸入數(shù)量(Plaut和Hinton,1987)。查找表(1)、線性層(4)和卷積層(6)的扇入分別為1,nl?1萬(wàn)德溫×nl?1胡。網(wǎng)絡(luò)的初始參數(shù)取自中心均勻分布,方差等于扇入平方根的倒數(shù)。(16)中的學(xué)習(xí)率除以扇入,但在訓(xùn)練期間保持不變。
3.5 Supervised Benchmark Results
對(duì)于POS、Chunking和NER任務(wù),我們使用第3.3.1節(jié)中描述的窗口架構(gòu)報(bào)告結(jié)果。SRL任務(wù)使用句子方法(第3.3.2節(jié))進(jìn)行訓(xùn)練。結(jié)果如表4所示,POS的每字準(zhǔn)確度(PWA)和所有其他任務(wù)的F1分?jǐn)?shù)。我們用**單詞級(jí)對(duì)數(shù)似然(WLL)和句子級(jí)對(duì)數(shù)似然(SLL)**進(jìn)行了實(shí)驗(yàn)。我們網(wǎng)絡(luò)的超參數(shù)如表5所示。
比較**基準(zhǔn)NLP系統(tǒng)**與普通神經(jīng)網(wǎng)絡(luò)(NN)方法在POS、Chunking、NER和SRL任務(wù)上的泛化性能。我們報(bào)告了單詞級(jí)對(duì)數(shù)似然(WLL)和句子級(jí)對(duì)數(shù)似然(SLL)的結(jié)果。一般化性能以POS的每字準(zhǔn)確率(PWA)和其他任務(wù)的F1分?jǐn)?shù)報(bào)告。NN結(jié)果落后于基準(zhǔn)結(jié)果,在第4節(jié)中,我們將展示如何使用未標(biāo)記的數(shù)據(jù)改進(jìn)這些模型。所有 我們的網(wǎng)絡(luò)都被喂入了兩種未加工的文本特征:小寫(xiě)單詞和大寫(xiě)字母功能。我們選擇考慮小寫(xiě)詞來(lái)限制字典中單詞的數(shù)量。然而,**為了保持一些大寫(xiě)信息在這種轉(zhuǎn)換中丟失,我們添加了一個(gè)“caps”功能**,它告訴我們每個(gè)單詞是小寫(xiě)的、全大寫(xiě)的、首字母大寫(xiě)的還是至少有一個(gè)非首字母大寫(xiě)的。此外,一個(gè)單詞中出現(xiàn)的**所有數(shù)字序列都將替換為字符串“NUMBER”**,因此,例如,單詞“PS1”和“PS2”都將映射到單個(gè)單詞“psNUMBER”。我們使用了一個(gè)包含《華爾街日?qǐng)?bào)》中100000個(gè)最常見(jiàn)單詞的詞典(不區(qū)分大小寫(xiě))。本詞典以外的單詞被一個(gè)特殊的“RARE”單詞所取代。單詞嵌入在SRL神經(jīng)網(wǎng)絡(luò)的單詞查找表中,從零開(kāi)始訓(xùn)練,字典大小為100000。對(duì)于每一列,查詢的單詞后跟字典中的索引(越高意味著越少)及其10個(gè)最近鄰(任意使用歐幾里德度量)。
結(jié)果表明,“out-of-the-box”的神經(jīng)網(wǎng)絡(luò)落后于基準(zhǔn)系統(tǒng)。雖然我們網(wǎng)絡(luò)的初始性能低于CoNLL 挑戰(zhàn)贏家的性能,但與大多數(shù)競(jìng)爭(zhēng)對(duì)手的性能相比,它的性能相當(dāng)出色。考慮到句子結(jié)構(gòu)(SLL)的訓(xùn)練標(biāo)準(zhǔn)似乎提高了Chunking、NER和SRL任務(wù)的表現(xiàn),對(duì)POS幾乎沒(méi)有好處。這一結(jié)果與比較句子水平和單詞水平可能性的現(xiàn)有NLP研究一致(Liang et al.,2008)。我們的網(wǎng)絡(luò)架構(gòu)的容量主要在于單詞查找表,其中包含50×100000個(gè)要訓(xùn)練的參數(shù)。在《華爾街日?qǐng)?bào)》的數(shù)據(jù)中,15%的最常用詞出現(xiàn)在90%左右的時(shí)間里。許多單詞只出現(xiàn)幾次。因此很困難正確地訓(xùn)練他們相應(yīng)的在查找表中的50維度的特征向量。理想情況下,我們希望語(yǔ)義相似的單詞在單詞查找表所表示的嵌入空間中靠近:通過(guò)神經(jīng)網(wǎng)絡(luò)函數(shù)的連續(xù)性,在語(yǔ)義相似的句子上生成的標(biāo)記將是相似的。我們?cè)诒?中顯示,情況并非如此:嵌入空間中的相鄰詞似乎在語(yǔ)義上不相關(guān)。
在下一節(jié)中,我們將重點(diǎn)介紹如何利用未標(biāo)記的數(shù)據(jù)來(lái)改進(jìn)這些單詞嵌入。我們將看到我們的方法可以提高所有任務(wù)的性能。
Remark 8(Architectures):在本文的所有實(shí)驗(yàn)中,我們通過(guò)驗(yàn)證嘗試了幾種不同的體系結(jié)構(gòu),從而調(diào)整了超參數(shù)。在實(shí)踐中,超參數(shù)的選擇,如隱藏單元的數(shù)量,如果它們足夠大,對(duì)泛化性能的影響是有限的。在圖4中,我們報(bào)告了驗(yàn)證集中每個(gè)任務(wù)的F1分?jǐn)?shù),與隱藏單元的數(shù)量有關(guān)。考慮到與網(wǎng)絡(luò)初始化相關(guān)的差異,我們選擇了實(shí)現(xiàn)“合理”性能的最小網(wǎng)絡(luò),而不是選擇在一次運(yùn)行中實(shí)現(xiàn)最高性能的網(wǎng)絡(luò)。
Remark 9 (Training Time):訓(xùn)練我們的網(wǎng)絡(luò)在計(jì)算上相當(dāng)昂貴。Chunking和NER訓(xùn)練大約需要一個(gè)小時(shí),POS訓(xùn)練需要幾個(gè)小時(shí),SRL訓(xùn)練大約需要三天。訓(xùn)練速度可以更快,學(xué)習(xí)速度也可以更快,但我們更愿意堅(jiān)持小規(guī)模的訓(xùn)練,而不是尋找最適合速度的訓(xùn)練。二階方法(LeCun等人,1998年)可能是另一種加速技術(shù)。
4.大量未標(biāo)記的數(shù)據(jù)
我們希望獲得比表6所示更多的語(yǔ)法和語(yǔ)義信息的單詞嵌入。由于我們系統(tǒng)的大多數(shù)可訓(xùn)練參數(shù)都與單詞嵌入相關(guān),這些較差的結(jié)果表明我們應(yīng)該使用更多的訓(xùn)練數(shù)據(jù)。
F1在驗(yàn)證集(y軸)上的得分與使用句子級(jí)似然(SLL)訓(xùn)練的不同任務(wù)的 **hidden units(隱藏單元)**數(shù)(x軸)的對(duì)比,如表4所示。對(duì)于SRL,我們?cè)谠搱D中只改變了第二層中的隱藏單元數(shù)。該量表適用于每項(xiàng)任務(wù)。我們展示了我們選擇的體系結(jié)構(gòu)的標(biāo)準(zhǔn)偏差(通過(guò)5次不同的隨機(jī)初始化獲得)(POS、CHUNK和NER的隱藏單位為300,SRL的隱藏單位為500)。
遵循NLP從無(wú)到有的理念,我們現(xiàn)在描述如何使用大型未標(biāo)記數(shù)據(jù)集顯著改進(jìn)這些嵌入。然后,我們使用這些改進(jìn)的嵌入來(lái)初始化第3.5節(jié)中描述的網(wǎng)絡(luò)的單詞查找表。
4.1 Data Sets
我們的第一個(gè)英語(yǔ)語(yǔ)料庫(kù)是整個(gè)英語(yǔ)維基百科。我們已刪除所有包含非羅馬字符的段落和所有MediaWiki標(biāo)記。使用Penn Treebank標(biāo)記器腳本對(duì)生成的文本進(jìn)行標(biāo)記。結(jié)果數(shù)據(jù)集包含約6.31億字。在我們之前的實(shí)驗(yàn)中,我們使用了一本包含《華爾街日?qǐng)?bào)》中100000個(gè)最常見(jiàn)單詞的詞典,對(duì)大寫(xiě)字母和數(shù)字進(jìn)行了相同的處理。同樣,字典之外的單詞被特殊的“稀有”單詞取代。我們的第二個(gè)英語(yǔ)語(yǔ)料庫(kù)是通過(guò)添加從路透社RCV1(Lewis et al.,2004)數(shù)據(jù)集中提取的額外2.21億單詞組成的。我們還增加了《路透社》中最常見(jiàn)的30000個(gè)單詞,將詞典擴(kuò)展到130000個(gè)單詞。這有助于確定是否可以通過(guò)進(jìn)一步增加未標(biāo)記數(shù)據(jù)集的大小來(lái)實(shí)現(xiàn)改進(jìn)。
4.2 Ranking Criterion versus Entropy Criterion
我們使用這些未標(biāo)記的數(shù)據(jù)集來(lái)訓(xùn)練語(yǔ)言模型,計(jì)算描述文本可接受性的分?jǐn)?shù)。這些語(yǔ)言模型同樣是使用第3.3.1節(jié)和圖1中描述的窗口方法的大型神經(jīng)網(wǎng)絡(luò)。與前一節(jié)一樣,大多數(shù)可訓(xùn)練參數(shù)位于查找表中。
Bengio和Ducharme(2001)以及Schwenk和Gauvain(2002)已經(jīng)提出了類似的語(yǔ)言模型。他們的目標(biāo)是估計(jì)一個(gè)單詞在句子中出現(xiàn)的概率。估計(jì)條件概率提出了一個(gè)類似于第3.4.1節(jié)描述的交叉熵標(biāo)準(zhǔn)。因?yàn)樽值涫呛艽蟮?#xff0c;計(jì)算歸一化項(xiàng)可能要求很高, 需要精確的近似值。對(duì)我們來(lái)說(shuō)更重要的是,這兩項(xiàng)工作都沒(méi)有導(dǎo)致重大的單詞嵌入被報(bào)道。
Shannon(1951)通過(guò)讓受試者猜測(cè)即將出現(xiàn)的字符,估計(jì)出英語(yǔ)的熵在每個(gè)字符0.6到1.3位之間。Cover和King(1978)使用微妙的賭博方法給出了每個(gè)字符1.25位的下限。同時(shí),Brown等人(1992b)使用一個(gè)簡(jiǎn)單的單詞三元模型,將每個(gè)字符的位數(shù)提高到1.75位。Teahan和Cleary(1996)使用可變長(zhǎng)度字符n-grams獲得了低至每個(gè)字符1.46位的熵。當(dāng)然,人類主體依賴于他們對(duì)語(yǔ)言和世界的所有知識(shí)。我們能通過(guò)利用每個(gè)字符0.2位來(lái)學(xué)習(xí)英語(yǔ)的語(yǔ)法結(jié)構(gòu)和世界的本質(zhì)嗎?每個(gè)字符將人類主體與簡(jiǎn)單的n-gram模型區(qū)分開(kāi)來(lái)?由于此類任務(wù)當(dāng)然需要高容量模型,因此獲取測(cè)試集熵的足夠小的置信區(qū)間可能需要非常大的訓(xùn)練集。熵準(zhǔn)則缺乏動(dòng)態(tài)范圍,因?yàn)槠鋽?shù)值很大程度上由最頻繁的短語(yǔ)決定。為了學(xué)習(xí)語(yǔ)法,罕見(jiàn)但合法的短語(yǔ)不亞于普通短語(yǔ)。
因此,有必要確定替代培訓(xùn)標(biāo)準(zhǔn)。我們?cè)诖私ㄗh使用成對(duì)排序方法(Cohen等人,1998年)。我們尋求一個(gè)網(wǎng)絡(luò),當(dāng)給出一個(gè)合法的短語(yǔ)時(shí),計(jì)算出的分?jǐn)?shù)比給出一個(gè)錯(cuò)誤的短語(yǔ)時(shí)要高。由于排名文獻(xiàn)通常涉及信息檢索應(yīng)用,許多作者定義了復(fù)雜的排名標(biāo)準(zhǔn),為最佳排名實(shí)例的排序提供了更多權(quán)重(見(jiàn)Burges et al.,2007;Clémenc?on和Vayatis,2007年)。然而,在我們的案例中,我們不想強(qiáng)調(diào)最常見(jiàn)的短語(yǔ)而不是罕見(jiàn)但合法的短語(yǔ)。因此,我們使用一個(gè)簡(jiǎn)單的成對(duì)標(biāo)準(zhǔn)。
我們考慮一個(gè)窗口逼近網(wǎng)絡(luò),如第3. 3節(jié)1和圖1所描述的,其中參數(shù)θ\thetaθ輸出一個(gè)文本x=[w]1dwinx = [ w ] _ { 1 } ^ { d _ { w i n } }x=[w]1dwin??的窗口的分?jǐn)?shù)$f _ { \theta } $。我們最小化關(guān)于θ的排名標(biāo)準(zhǔn):
其中XXX是所有可能的文本窗口集合,其中dwind_{win}dwin?單詞來(lái)自我們的訓(xùn)練語(yǔ)料庫(kù),DDD是單詞詞典,X(w)X^{(w)}X(w)表示通過(guò)將文本窗口[w]1d[ w ] _ { 1 } ^ { d }[w]1d?的中心單詞替換為單詞www而獲得的文本窗口。
Okanohara和Tsujii(2007)使用相關(guān)方法避免使用二元分類方法(正確/錯(cuò)誤短語(yǔ))的熵標(biāo)準(zhǔn)。他們的工作重點(diǎn)是使用內(nèi)核分類器,而不是像我們?cè)谶@里所做的那樣學(xué)習(xí)單詞嵌入。Smith和Eisner(2005)還提出了一個(gè)對(duì)比標(biāo)準(zhǔn),用于估計(jì)數(shù)據(jù)條件化為“負(fù)”鄰域的可能性。他們考慮不同的數(shù)據(jù)街區(qū),包括來(lái)自dwind_{win}dwin?的DdwinD^{d_{win}}Ddwin?長(zhǎng)度的句子。然而,他們的目標(biāo)是在完全無(wú)監(jiān)督的數(shù)據(jù)上完成一些標(biāo)記任務(wù),而不是獲得對(duì)其他任務(wù)有用的通用單詞嵌入。
總結(jié)
以上是生活随笔為你收集整理的论文阅读笔记(一)【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch(未完)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 软件oem要注意什么_化妆品OEM客户要
- 下一篇: af_netlink_2、netlink