當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读笔记（一）【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch（未完）

發(fā)布時(shí)間：2024/7/5 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读笔记（一）【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch（未完）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)內(nèi)容

題目：自然語(yǔ)言從零開(kāi)始 Natural Language Processing (Almost) from Scratch
2021年7月28日 1-5頁(yè)

這將是一個(gè)長(zhǎng)期的過(guò)程，因?yàn)楸疚拈L(zhǎng)45頁(yè)；
每天給自己定為5頁(yè)的任務(wù)量！

由于剛開(kāi)始接觸知識(shí)圖譜，尚未學(xué)習(xí)NLP語(yǔ)言，理解較為粗淺，僅僅閱讀了通識(shí)部分，算法章節(jié)待基礎(chǔ)學(xué)完再去理解。

摘要

方法：
一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法，可以應(yīng)用于各種自然語(yǔ)言處理任務(wù)，包括詞性標(biāo)注、組塊、命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注。
模型：
這種多功能性是通過(guò)嘗試避免特定于任務(wù)的工程，從而忽略了大量的先驗(yàn)知識(shí)來(lái)實(shí)現(xiàn)的。
數(shù)據(jù)集：
大量未標(biāo)記的數(shù)據(jù)集。

介紹

基礎(chǔ)語(yǔ)料庫(kù)的由來(lái)：
沒(méi)有專門(mén)的結(jié)構(gòu)可以表示整句話，所以一句話必須提取簡(jiǎn)單表示的簡(jiǎn)化目標(biāo)（如三元組）。
我們通過(guò)特定程序獲取語(yǔ)料庫(kù)，它們可以描述句法信息（例如，詞性標(biāo)注、組塊和語(yǔ)法分析）或語(yǔ)義信息（例如，詞義消歧、語(yǔ)義角色標(biāo)注、命名實(shí)體提取和回指消解），這也構(gòu)成了NLP真實(shí)世界的基礎(chǔ)。
現(xiàn)在NLP存在的問(wèn)題：
現(xiàn)在大多數(shù)都是通過(guò)線性模型應(yīng)用于特定特征來(lái)解決單一的benchmark問(wèn)題，不具有泛化能力；
我們的方法：
我們使用一個(gè)能夠發(fā)現(xiàn)足夠的內(nèi)部表征的單一學(xué)習(xí)系統(tǒng)，事實(shí)上，我們將基準(zhǔn)視為學(xué)習(xí)過(guò)程中發(fā)現(xiàn)的內(nèi)部表征相關(guān)性的間接測(cè)量，并且我們假設(shè)這些中間表征比任何基準(zhǔn)都更普遍。而且我們無(wú)法使用大量的語(yǔ)言知識(shí)，“幾乎從零開(kāi)始”。

2. 基準(zhǔn)任務(wù)（The Benchmark Tasks）

當(dāng)前的四種NLP任務(wù)：詞性標(biāo)記（POS）、組塊（CHUNK）、命名實(shí)體識(shí)別（NER）和語(yǔ)義角色標(biāo)記（SRL）

四個(gè)NLP任務(wù)的最新系統(tǒng)。POS的每字準(zhǔn)確率和CHUNK、NER和SRL的F1分?jǐn)?shù)反映了性能。黑體字的系統(tǒng)在本文的其余部分將被稱為基準(zhǔn)系統(tǒng)。

2.1 詞性標(biāo)注（Part-Of-Speech Tagging ）

POS的目的是給每個(gè)詞加上一個(gè)獨(dú)特的標(biāo)記，以表明它的句法作用，例如復(fù)數(shù)名詞、副詞等。

最優(yōu)算法：最好的POS分類器是基于文本窗口（windows of text）訓(xùn)練的分類器，然后在推理過(guò)程中輸入雙向解碼算法，在雙向依賴網(wǎng)絡(luò)中使用最大熵分類器和推理（Heckerman等人，2001），每個(gè)詞的準(zhǔn)確率達(dá)到97.24%。
（什么叫做基于文本窗口訓(xùn)練的分類器？？？？雙向解碼算法）

2.2 分塊（chunking）

語(yǔ)塊分析也被稱為淺層句法分析，其目的是用名詞或動(dòng)詞短語(yǔ)（NP或VP）等句法成分來(lái)標(biāo)記句子片段。每個(gè)單詞只分配一個(gè)唯一的標(biāo)記，通常編碼為一個(gè)開(kāi)始?jí)K（例如，GB-NP，開(kāi)始?jí)K名詞短語(yǔ)）或內(nèi)部塊標(biāo)記（例如，GI-NP，內(nèi)部塊名詞短語(yǔ)）

最優(yōu)算法：CoNLL 2000基于SVMs，每個(gè)支持向量機(jī)以成對(duì)分類的方式訓(xùn)練，并在感興趣的單詞周圍提供一個(gè)窗口，其中包含位置和單詞作為特征，以及周圍的標(biāo)簽。在測(cè)試時(shí)執(zhí)行動(dòng)態(tài)規(guī)劃。

CoNLL：計(jì)算機(jī)自然語(yǔ)言學(xué)習(xí)會(huì)議，是ACL的在Natural Language learning方面的分支會(huì)議。
（感興趣的單詞周圍設(shè)置窗口？？）

2.3 命名實(shí)體識(shí)別（Named Entity Recognition）

NER將句子中的原子元素分為“人”或“地點(diǎn)”等類別。在分塊任務(wù)中，每個(gè)單詞都被分配一個(gè)標(biāo)記，前綴是實(shí)體開(kāi)頭或內(nèi)部的指示符。

最優(yōu)算法：NER CoNLL2003,，他們使用各種機(jī)器學(xué)習(xí)分類器的組合，他們挑選的特征包含了單詞、詞性標(biāo)簽、POS標(biāo)簽、前綴和后綴、一個(gè)大的地名索引（并不是由比賽提供的）和在更豐富的數(shù)據(jù)集上訓(xùn)練的另外兩個(gè)NER分類器的輸出。

2.4 語(yǔ)義角色標(biāo)注（Semantic Role Labeling）

SRL旨在賦予句子的句法成分一個(gè)語(yǔ)義角色。也就是說(shuō)句子中的某些信息特定的標(biāo)簽。
比如

中我們就可以給定主語(yǔ)、謂詞和賓語(yǔ)不同的標(biāo)注。當(dāng)然，如果一個(gè)句子中有多個(gè)動(dòng)詞，一些單詞可能有多個(gè)標(biāo)記。
最先進(jìn)的SRL系統(tǒng)包括幾個(gè)階段：生成一個(gè)解析樹(shù)，確定哪些解析樹(shù)節(jié)點(diǎn)代表給定動(dòng)詞的參數(shù)，最后對(duì)這些節(jié)點(diǎn)進(jìn)行分類以計(jì)算相應(yīng)的SRL標(biāo)記。

最優(yōu)算法： Pradhan et al.（2004）采用這些基本特征并定義其他特征，特別是首詞的speech-tag部分、參數(shù)的預(yù)測(cè)命名實(shí)體類、為動(dòng)詞提供詞義消歧的特征（他們總共添加了12種新特征類型的25種變體）實(shí)現(xiàn)了最好的水平。

2.5 評(píng)估

所有這三個(gè)任務(wù)都是通過(guò)計(jì)算我們的模型產(chǎn)生的chunking的F1分?jǐn)?shù)來(lái)評(píng)估的。POS任務(wù)是通過(guò)計(jì)算每個(gè)單詞的準(zhǔn)確度來(lái)評(píng)估的，就像我們所提到的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試一樣（Toutanova等人，2003）。

2.6 討論

在公開(kāi)挑戰(zhàn)比賽中，使用外來(lái)的頂級(jí)現(xiàn)有系統(tǒng)來(lái)提高效率是無(wú)可厚非的，但是在不同標(biāo)記數(shù)據(jù)已經(jīng)實(shí)現(xiàn)的較高效率的系統(tǒng)對(duì)我們是不能夠有效果的。所以，我們采用上面已經(jīng)驗(yàn)證過(guò)的基準(zhǔn)系統(tǒng)作為我們實(shí)驗(yàn)的基準(zhǔn)參考。
而且復(fù)雜任務(wù)的最佳系統(tǒng)將具有更多的工程特征，也就是說(shuō)POS任務(wù)是最簡(jiǎn)單的，而SRL是最復(fù)雜的，并且為它設(shè)計(jì)了多種特征。而NLP需要考慮更多的語(yǔ)義理解。

3. 網(wǎng)絡(luò)

以上所有NLP任務(wù)都可以看作是為單詞分配標(biāo)簽的任務(wù)。傳統(tǒng)的NLP都是從句子中提取一組豐富的手工設(shè)計(jì)特征，然后當(dāng)作分類任務(wù)放到含有線性核的SVM中分類。但是常用的方法中太基于大量的數(shù)據(jù)了。

3.1 標(biāo)記

其中 $fθ(?))f_\theta{(·)})$ 是一個(gè)神經(jīng)網(wǎng)絡(luò)， $l$ 則是經(jīng)過(guò)了多少層；我們后面會(huì)介紹每一層。

其中A是矩陣， $A]_{(i,j)}$ 表示的是 $i$ 和 $j$ 的關(guān)系;
$?A?idwin\langle A \rangle _i^{d_{win}}$ 向量，是由concat矩陣 $A∈Rd1×d2A\in\mathbb{R}^{d_1 \times{d_2}}$ 的 $i^{th}$ 列向量周圍 $d_{win}$ 列向量得到的。特殊情況下， $?A?i1\langle A \rangle_i ^ 1$ 表示矩陣 $A$ 的 $i^{th}$ 列。 “win” = "window"
對(duì)于向量 $v$ ，我們使用 $v]_i$ 來(lái)表示向量的第 $i$ 個(gè)標(biāo)量。
最終元素序列 ${x_1 , x_2, ... , x_T}$ 被寫(xiě)成 $x]_1 ^ T$ ，句子的 $i^{th}$ 元素被表示 $x]_i$ 。

3.2 將單詞轉(zhuǎn)換為特征向量

我們結(jié)構(gòu)的關(guān)鍵點(diǎn)就是能夠很好的利用raw words；只是使用索引不能提供很好信息，所以，我們網(wǎng)絡(luò)的第一層通過(guò)查找表操作將這些單詞索引映射到一個(gè)特征向量中，該特征向量從隨機(jī)初始化開(kāi)始，通過(guò)反向傳播進(jìn)行訓(xùn)練。
更正式地說(shuō)，每一個(gè)單詞 $\in \mathcal{D}$ ，內(nèi)部的 $d_{wrd}$ -維度特征向量表示是由查找表 $T_{W}(\cdot)$ 得來(lái)的：

其中 $\in \mathbb{R}^{d_{w r d} \times|\mathcal{D}|}$ 是要被學(xué)習(xí)的參數(shù)矩陣。 $?W?w1∈Rdwrd\langle W\rangle_{w}^{1} \in \mathbb{R}^{d_{w r d}}$ 是 $W$ 的 $w^{th}$ 列, $d_{wrd}$ 單詞的向量長(zhǎng)度(是一個(gè)超參數(shù)). 給定一個(gè)句子或任意序列的 $T$ 個(gè)單詞 $[w]1Tin?D[w]_{1}^{T} \text { in } \mathcal{D}$ ，查找表層對(duì)序列中的每個(gè)單詞應(yīng)用相同的操作，生成以下輸出矩陣：

然后可以將該矩陣反饋給進(jìn)一步的神經(jīng)網(wǎng)絡(luò)層，如下所示。

3.2.1擴(kuò)展到任何離散特征(其它的特征)

如果您懷疑這些特性對(duì)感興趣的任務(wù)有幫助，那么您可能希望提供文字以外的特性。例如，對(duì)于NER任務(wù)，可以提供一個(gè)功能，說(shuō)明一個(gè)單詞是否在地名錄中。另一種常見(jiàn)做法是引入一些基本的預(yù)處理，例如詞干提取或處理大小寫(xiě)。在后一個(gè)選項(xiàng)中，單詞將由三個(gè)離散特征表示：小寫(xiě)詞干詞根、小寫(xiě)詞尾和大寫(xiě)特征。
一般說(shuō)來(lái)，我們可以用 $k$ 個(gè)離散特征來(lái)表示一個(gè)詞。 $\in \mathcal{D}^{1} \times \cdots \times \mathcal{D}^{K}$ ，其中 $Dk\mathcal{D}^{k}$ 是字典里的第 $k^{t h}$ 特征。我們?yōu)槊總€(gè)特征關(guān)聯(lián)一個(gè)查找表 $T_{W^{k}}(\cdot)$ ,參數(shù)是 $Wk∈Rdwrdk×∣Dk∣where?dwrdk∈NW^{k} \in \mathbb{R}^{d_{w r d}^{k} \times\left|\mathcal{D}^{k}\right|} \text { where } d_{w r d}^{k} \in \mathbb{N}$ 是用戶指定的向量大小。給定一個(gè)單詞 $w$ ，一個(gè)特征向量維度是 $dwrd=∑kdwrdkd_{w r d}=\sum_{k} d_{w r d}^{k}$ 然后通過(guò)連接所有查找表輸出獲得：

單詞序列 $w]_{1}^{T}$ 的查找表層的矩陣輸出類似于（1），但為每個(gè)離散特征添加了額外的行：

查找表中的這些向量特征有效地學(xué)習(xí)字典中單詞的特征。現(xiàn)在，我們希望使用這些可訓(xùn)練的特征作為輸入，進(jìn)一步構(gòu)建可訓(xùn)練的特征提取器，這些提取器可以表示一組單詞，最后是句子。

3.3從單詞特征向量中提取更高層次的特征

查找表層生成的特征向量需要在神經(jīng)網(wǎng)絡(luò)的后續(xù)層中進(jìn)行組合，以便為句子中的每個(gè)單詞生成標(biāo)記決策。為可變長(zhǎng)度序列中的每個(gè)元素生成標(biāo)記（這里，一個(gè)句子是一個(gè)單詞序列）是機(jī)器學(xué)習(xí)中的一個(gè)標(biāo)準(zhǔn)問(wèn)題。我們考慮兩種常見(jiàn)的方法，標(biāo)簽一個(gè)詞在時(shí)間：窗口方法，和（卷積）句子的方法。

3.3.1 WINDOW APPROACH

窗口方法假設(shè)一個(gè)單詞的標(biāo)記主要依賴于它的相鄰單詞。給定一個(gè)單詞標(biāo)簽，我們考慮一個(gè)固定大小的 $k_{sz}$ （超參數(shù)）窗口圍繞這個(gè)詞的單詞。窗口中的每個(gè)單詞首先通過(guò)查找表層（1）或（2），生成固定大小 $dwrd×kszd_{w r d} \times k_{s z}$ 的單詞特征矩陣。通過(guò)連接每個(gè)列向量，可以將該矩陣視為 $dwrd×kszd_{w r d} \times k_{s z}$ -維向量，這些列向量可以饋送到進(jìn)一步的神經(jīng)網(wǎng)絡(luò)層。更正式地說(shuō)，第一個(gè)網(wǎng)絡(luò)層給出的單詞特征窗口可以寫(xiě)成：

Linear Layer ：固定大小的向量 $fθ1f_{\theta}^{1}$ 可饋送至一個(gè)或多個(gè)標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)層，這些神經(jīng)網(wǎng)絡(luò)層對(duì)其輸入執(zhí)行仿射變換：

其中 $Wl∈Rnhul×nhul?1and?bl∈RnhulW^{l} \in \mathbb{R}^{n_{h u}^{l} \times n_{h u}^{l-1}} \text { and } b^{l} \in \mathbb{R}^{n_{h u}^{l}}$ 是要學(xué)習(xí)的參數(shù).超參數(shù) $n_{h u}^{l}$ 通常稱為 $l^{t h}$ 層的隱藏單位數(shù)。

HardTanh Layer :
激活函數(shù)

其中:

Scoring：最后，我們網(wǎng)絡(luò)的最后一層 $L$ 的輸出大小等于感興趣的任務(wù)可能的標(biāo)簽數(shù)量。然后，由于我們將在本節(jié)后面描述的仔細(xì)選擇的成本函數(shù)，每個(gè)輸出都可以解釋為相應(yīng)標(biāo)簽的分?jǐn)?shù)（給定網(wǎng)絡(luò)的輸入）。

Remark 1 (Border Effects): 對(duì)于靠近句子開(kāi)頭或結(jié)尾的單詞，沒(méi)有很好地定義特征窗口（3）。為了避免這個(gè)問(wèn)題，我們?cè)诰渥拥拈_(kāi)頭和結(jié)尾添加了一個(gè)特殊的“PADDING”單詞，重復(fù)了 $d_{win}/2$ 次。這類似于在序列模型中使用“開(kāi)始”和“停止”符號(hào)。

3.3.2SENTENCE APPROACH

我們認(rèn)為句子訓(xùn)練網(wǎng)絡(luò)（圖2）訓(xùn)練SRL。卷積層輸出的“局部”特征數(shù)為每個(gè)字300個(gè)。通過(guò)對(duì)句子應(yīng)用最大值，我們獲得了整個(gè)句子的300個(gè)特征。有趣的是，該網(wǎng)絡(luò)主要圍繞著感興趣的動(dòng)詞（此處為“報(bào)告”）和感興趣的詞（“建議”（左）或“經(jīng)常”（右））捕捉特征。

在實(shí)驗(yàn)部分，我們將看到窗口方法在我們感興趣的大多數(shù)自然語(yǔ)言處理任務(wù)中表現(xiàn)良好。然而，這種方法在SRL中失敗了，在SRL中，單詞的標(biāo)記取決于句子中事先選擇的動(dòng)詞（或者更準(zhǔn)確地說(shuō)，謂詞）。如果動(dòng)詞落在窗口之外，就不能期望這個(gè)詞被正確地標(biāo)記。在這種特殊情況下，為一個(gè)單詞添加標(biāo)簽需要考慮整個(gè)句子。當(dāng)使用神經(jīng)網(wǎng)絡(luò)時(shí)，解決這個(gè)問(wèn)題的自然選擇變成了卷積方法，首先由Waibel等人（1989）引入，在文獻(xiàn)中也稱為時(shí)滯神經(jīng)網(wǎng)絡(luò)（TDNNs）。
下面我們將詳細(xì)描述我們的卷積網(wǎng)絡(luò)。它依次獲取完整的句子，將其傳遞到查找表層（1），通過(guò)卷積層在句子的每個(gè)單詞周圍生成局部特征，將這些特征組合成一個(gè)全局特征向量，然后將其饋送到標(biāo)準(zhǔn)仿射層（4）。在SRL中，對(duì)句子中的每個(gè)單詞和句子中的每個(gè)動(dòng)詞執(zhí)行此操作。因此，有必要在網(wǎng)絡(luò)架構(gòu)中編碼我們?cè)诰渥又锌紤]的動(dòng)詞，以及我們想要標(biāo)記的單詞。為此，句子中位置 $i$ 處的每個(gè)單詞都以第3.2.1節(jié)所述的方式增加了兩個(gè)特征。這些特征編碼了相對(duì)距離 $i - p o s _ { v }$ 和 $i - pos _ { w }$ ，分別與位置 $i-p o s_{v}$ 處的所選動(dòng)詞和位置 $pos_w$ 處的要標(biāo)記的單詞相關(guān)。
Convolutional Layer:卷積層可以看作是窗口方法的推廣。用前面的符號(hào)， $l^{th}$ 層的 $t^{th}$ 列可以計(jì)算為：

其中，權(quán)重矩陣 $W^l$ 在序列中的所有窗口 $t$ 中都相同。卷積層圍繞給定序列的每個(gè)窗口提取局部特征。對(duì)于標(biāo)準(zhǔn)仿射層（4），卷積層通常被疊加以提取更高級(jí)別的特征。在這種情況下，每個(gè)層后面必須有一個(gè)非線性（5），否則網(wǎng)絡(luò)將相當(dāng)于一個(gè)卷積層。

Max Layer :輸出（6）的大小取決于輸入網(wǎng)絡(luò)的句子中的字?jǐn)?shù)。為了應(yīng)用后續(xù)的標(biāo)準(zhǔn)仿射層，必須組合由卷積層提取的局部特征向量，以獲得與句子長(zhǎng)度無(wú)關(guān)的固定大小的全局特征向量。傳統(tǒng)卷積網(wǎng)絡(luò)通常在序列（6）的“時(shí)間” $t$ 上應(yīng)用平均（可能加權(quán)）或最大運(yùn)算(這里，“時(shí)間”只是指句子中的位置，這個(gè)術(shù)語(yǔ)源于卷積層的使用，例如，在語(yǔ)音數(shù)據(jù)中，序列隨時(shí)間發(fā)生。）在我們的例子中，平均操作沒(méi)有多大意義，因?yàn)?strong>一般來(lái)說(shuō)，句子中的大多數(shù)單詞對(duì)給定單詞的語(yǔ)義角色沒(méi)有任何影響。取而代之的是，我們使用了一種max方法，它強(qiáng)制網(wǎng)絡(luò)為手頭的任務(wù)捕獲卷積層產(chǎn)生的最有用的局部特征（見(jiàn)圖3）。給定一個(gè)矩陣 $\theta } ^ { l- 1}$ , 它由卷積層 $l ? 1$ 輸出，最大層 $l$ 輸出一個(gè)向量 $fθlf_\theta^l$ ：

然后可以將該固定大小的全局特征向量饋送到標(biāo)準(zhǔn)仿射網(wǎng)絡(luò)層（4）。與窗口方法一樣，我們最終為給定任務(wù)的每個(gè)可能標(biāo)記生成一個(gè)分?jǐn)?shù)。

Remark2：卷積運(yùn)算（6）中產(chǎn)生的邊界效應(yīng)與窗口方法（3）中產(chǎn)生的邊界效應(yīng)相同。我們?cè)俅瓮ㄟ^(guò)在句子中填充一個(gè)特殊的單詞來(lái)解決這個(gè)問(wèn)題。
、

3.3.3 TAGGING SCHEMES

對(duì)于所有可能的網(wǎng)絡(luò)輸出層，解釋為compute scores。在窗口方法中，這些標(biāo)記應(yīng)用于位于窗口中心的單詞。在（卷積）句子方法中，這些標(biāo)記應(yīng)用于網(wǎng)絡(luò)輸入中由附加標(biāo)記指定的單詞。POS任務(wù)實(shí)際上包括標(biāo)記每個(gè)單詞的句法角色。然而，剩下的三項(xiàng)任務(wù)將標(biāo)簽與句子片段相關(guān)聯(lián)。這通常是通過(guò)使用特殊的標(biāo)記方案來(lái)識(shí)別段邊界來(lái)實(shí)現(xiàn)的，如表3所示。已經(jīng)定義了幾種這樣的方案（IOB、IOE、IOBES等）總的來(lái)說(shuō)，哪種方案更好，沒(méi)有明確的結(jié)論。有時(shí)，通過(guò)結(jié)合使用不同標(biāo)記方案訓(xùn)練的分類器（例如。G工藤和松本，2001年）。

各種標(biāo)記方案。標(biāo)記為“X”的段中的每個(gè)單詞都帶有前綴標(biāo)簽，這取決于單詞在段中的位置（開(kāi)始、內(nèi)部、結(jié)束）。還輸出單字段標(biāo)簽。不在標(biāo)記段中的單詞標(biāo)記為“O”。存在IOB（和IOE）方案的變體，其中對(duì)于與具有相同標(biāo)簽“X”的另一段不相鄰的所有段，前綴B（或E）被替換為I。

NER、CHUNK和SRL任務(wù)的gt標(biāo)簽是使用兩種不同的標(biāo)記方案提供的。為了消除這種額外的變化源，我們決定對(duì)所有任務(wù)使用最具表現(xiàn)力的IOBES標(biāo)記方案。例如，在組CHUNK任務(wù)中，我們使用四種不同的標(biāo)記來(lái)描述名詞短語(yǔ)。標(biāo)記“S-NP”用于標(biāo)記包含單個(gè)單詞的名詞短語(yǔ)。另外，標(biāo)簽“B-NP”、“I-NP”和“E-NP”用于標(biāo)記名詞短語(yǔ)的第一個(gè)、中間和最后一個(gè)單詞。另一個(gè)標(biāo)記“O”標(biāo)記不是塊成員的單詞。在測(cè)試過(guò)程中，這些標(biāo)簽隨后被轉(zhuǎn)換為原始的IOB標(biāo)簽方案，并輸入到第2.5節(jié)中提到的標(biāo)準(zhǔn)性能評(píng)估腳本中。

3.4 Training

我們所有的神經(jīng)網(wǎng)絡(luò)都是通過(guò)在訓(xùn)練數(shù)據(jù)上最大化似然，使用隨機(jī)梯度上升來(lái)訓(xùn)練的。如果我們將θ表示為使用訓(xùn)練集 $T$ 訓(xùn)練的網(wǎng)絡(luò)的所有可訓(xùn)練參數(shù)，我們希望最大化以下關(guān)于θ的對(duì)數(shù)似然：

其中 $x$ 對(duì)應(yīng)于訓(xùn)練詞窗口或句子及其相關(guān)特征， $y$ 代表相應(yīng)的標(biāo)記。概率 $p （ ? ）$ 由神經(jīng)網(wǎng)絡(luò)的輸出計(jì)算得出。在本節(jié)中，我們將看到兩種將神經(jīng)網(wǎng)絡(luò)輸出解釋為概率的方法。

3.4.1 WORD-LEVEL LOG-LIKELIHOOD

在這種方法中，句子中的每個(gè)單詞都是獨(dú)立考慮的。給定一個(gè)輸入示例 $x$ ，參數(shù)為 $θ$ 的網(wǎng)絡(luò)輸出一個(gè)分?jǐn)?shù) $\theta } ( x ) ] _ { i }$ 、對(duì)于與感興趣的任務(wù)相關(guān)的 $i^{th}$ 標(biāo)簽。為了簡(jiǎn)化符號(hào)，我們從現(xiàn)在開(kāi)始去掉 $x$ ，改為寫(xiě) $\theta } ] _ { i } ] _ { i }$ 我通過(guò)對(duì)所有標(biāo)簽應(yīng)用softmax（Bridle，1990）操作，該分?jǐn)?shù)可解釋為條件標(biāo)簽概率 $p （ i ∣ x ， θ ）$ ：

將log-add操作定義為:

我們可以將一個(gè)訓(xùn)練示例（x，y）的對(duì)數(shù)似然表示為：

雖然這種訓(xùn)練標(biāo)準(zhǔn)（通常稱為交叉熵）被廣泛用于分類問(wèn)題，但在我們的例子中，它可能并不理想，因?yàn)榫渥又幸粋€(gè)單詞的標(biāo)記與其相鄰標(biāo)記之間通常存在相關(guān)性。現(xiàn)在，我們描述另一種常見(jiàn)的神經(jīng)網(wǎng)絡(luò)方法，該方法強(qiáng)制執(zhí)行句子中預(yù)測(cè)標(biāo)記之間的依賴關(guān)系。

3.4.2句子級(jí)對(duì)數(shù)似然法

在諸如Chunking、NER或SRL之類的任務(wù)中，我們知道句子中單詞標(biāo)記之間存在依賴關(guān)系：不僅標(biāo)記以分塊的形式組織，而且一些標(biāo)記不能跟隨其他標(biāo)記。使用單詞級(jí)方法進(jìn)行培訓(xùn)會(huì)丟棄此類標(biāo)簽信息。我們考慮了一個(gè)訓(xùn)練方案，它考慮了句子結(jié)構(gòu)：給出了我們的網(wǎng)絡(luò)中所有標(biāo)簽在句子中的所有單詞的預(yù)測(cè)，并且給出了從一個(gè)標(biāo)簽到另一個(gè)標(biāo)簽的得分，我們希望在訓(xùn)練期間鼓勵(lì)有效的標(biāo)記路徑，同時(shí)勸阻所有其他路徑。
我們考慮由網(wǎng)絡(luò)輸出的分?jǐn)?shù)矩陣 $\theta } ( [ x ] _ { 1 } ^ { T } )$ 。與前面一樣，為了簡(jiǎn)化符號(hào)，我們刪除了輸入 $x ] _ { 1 } ^ { T }$ 。矩陣的元素 $\theta } ] _ { i , t }$ 是含有 $θ$ 的網(wǎng)絡(luò)在 $t^{th}$ 單詞處輸出的分?jǐn)?shù)，用于句子 $[x]1T[x]^T_1$ 和 $i^{th}$ 標(biāo)簽。我們引入了一個(gè)過(guò)渡分?jǐn)?shù) $A]_{i,j}$ ，用于在連續(xù)單詞中從 $i$ 標(biāo)記跳到 $j$ 標(biāo)記，以及一個(gè)初始分?jǐn)?shù) $A]_{i，0}$ ，用于從 $i$ 標(biāo)記開(kāi)始。當(dāng)過(guò)渡分?jǐn)?shù)將被訓(xùn)練時(shí)（所有網(wǎng)絡(luò)參數(shù)θ也是如此），我們定義 $θ=θU{[A]i,j,Vi,j}\theta = \theta U \{ [ A ] _ { i , j } , V i , j \}$ 。一個(gè)句子 $x ] _ { 1 } ^ { T }$ 在標(biāo)記 $i ] _ { 1 } ^ { T }$ 路徑上的得分由轉(zhuǎn)換得分和網(wǎng)絡(luò)得分之和給出：

與單詞級(jí)似然（11）完全一樣，我們使用softmax（9）對(duì)所有標(biāo)簽進(jìn)行標(biāo)準(zhǔn)化，我們使用softmax對(duì)所有可能的標(biāo)簽路徑 $j ] _ { 1 } ^ { T }$ 上的分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化，并將結(jié)果比率解釋為條件標(biāo)簽路徑概率。取對(duì)數(shù)，因此真實(shí)路徑的條件概率 $y ] _ { 1 } ^ { T }$ 由下式給出：

雖然logadd操作（11）中的術(shù)語(yǔ)數(shù)量等于標(biāo)記數(shù)量，但它隨著（13）中句子的長(zhǎng)度呈指數(shù)增長(zhǎng)。幸運(yùn)的是，我們可以利用標(biāo)準(zhǔn)遞歸，在 $半環(huán)10\text{半環(huán)}^{10}$ $\cup \{ - \infty \} , \text{logadd , + })$ 上的結(jié)合性和分布性，在線性時(shí)間t內(nèi)計(jì)算出。

然后是終止：

我們現(xiàn)在可以在（8）中最大化所有訓(xùn)練對(duì)（ $x ] _ { 1 } ^ { T } , [ y ] _ { 1 } ^ { T }$ ）的對(duì)數(shù)似然（13）。
在推理時(shí)，給定一個(gè)要標(biāo)記的句子 $[x]1T[x]^T_1$ ，我們必須找到使句子得分最小化的最佳標(biāo)記路徑（12）。換句話說(shuō)，我們必須找到:

維特比算法是這種推理的自然選擇。它對(duì)應(yīng)于執(zhí)行遞歸（14）和（15），但是logadd被max替換，然后通過(guò)每個(gè)max跟蹤最優(yōu)路徑。

Remark 3 (Graph Transformer Networks):我們的方法是針對(duì)圖形變壓器網(wǎng)絡(luò)（GTN）的區(qū)別性前向訓(xùn)練的一個(gè)特例（Bottou等人，1997；樂(lè)存等人，1998年）。對(duì)數(shù)似然（13）可被視為有效路徑上受約束的正向得分（在我們的案例中，只有標(biāo)記路徑）與無(wú)約束的正向得分（15）之間的差異。

Remark 4 (Conditional Random Fields): 等式（12）的一個(gè)重要特征是沒(méi)有歸一化。將所有可能的標(biāo)記的指數(shù) $\theta ] _ { i , t } }$ 求和并不一定得到一致的效果。如果是這種情況，分?jǐn)?shù)可以被視為條件轉(zhuǎn)移概率的對(duì)數(shù)，我們的模型將受到激勵(lì)條件隨機(jī)場(chǎng)（CRF）的標(biāo)簽偏差問(wèn)題的影響（Lafferty et al.，2001）。非標(biāo)準(zhǔn)化評(píng)分應(yīng)與CRF的潛在功能相比較。事實(shí)上，CRF使用線性模型而不是非線性神經(jīng)網(wǎng)絡(luò)最大化相同的可能性（13）。CRF在NLP領(lǐng)域得到了廣泛的應(yīng)用，例如詞性標(biāo)注（Lafferty等人，2001年）、組塊（Sha和Pereira，2003年）、NER（McCallum和Li，2003年）或SRL（Cohn和Blunsom，2005年）。與這些CRF相比，我們利用非線性網(wǎng)絡(luò)學(xué)習(xí)每個(gè)感興趣任務(wù)的適當(dāng)特征。

3.4.3隨機(jī)梯度

通過(guò)迭代選擇隨機(jī)示例 $（ x ， y ）$ 并進(jìn)行梯度步進(jìn)，實(shí)現(xiàn)隨機(jī)梯度最大化（8）（Bottou，1991）：

其中 $λ$ 是所選的學(xué)習(xí)速率。圖1和圖2中描述的神經(jīng)網(wǎng)絡(luò)是一系列層，對(duì)應(yīng)于連續(xù)的函數(shù)組合。神經(jīng)網(wǎng)絡(luò)最終由單詞級(jí)對(duì)數(shù)似然（11）組成，如果使用句子級(jí)對(duì)數(shù)似然（13），則在遞歸（14）中依次組成。因此，可以通過(guò)網(wǎng)絡(luò)、字級(jí)對(duì)數(shù)似然（11）或通過(guò)遞歸（14）應(yīng)用微分鏈規(guī)則來(lái)計(jì)算導(dǎo)數(shù)（16）的分析公式。

Remark 5 (Differentiability, 可微性):我們的成本函數(shù)幾乎在任何地方都是可微的。不可微點(diǎn)的出現(xiàn)是因?yàn)槲覀兪褂昧恕坝病眰鬟f函數(shù)（5），并且因?yàn)槲覀冊(cè)诰渥咏咏W(wǎng)絡(luò)中使用了“最大”層（7）。幸運(yùn)的是，盡管存在這樣的可微性問(wèn)題，隨機(jī)梯度仍然收斂到有意義的局部極小值（Bottou，1991，1998）。遇到不可微性的隨機(jī)梯度迭代被簡(jiǎn)單地跳過(guò)。

Remark6（模塊化方法）: 著名的“反向傳播”算法（LeCun，1985；Rumelhart等人，1986）使用鏈?zhǔn)揭?guī)則計(jì)算梯度。鏈規(guī)則也可用于模塊化實(shí)現(xiàn)。我們的模塊對(duì)應(yīng)于圖1和圖2中的方框。根據(jù)Bottou和Gallinari（1991）的建議，給定與其輸出相關(guān)的導(dǎo)數(shù)，每個(gè)模塊可以獨(dú)立計(jì)算與其輸入相關(guān)的導(dǎo)數(shù)以及與其可訓(xùn)練參數(shù)相關(guān)的導(dǎo)數(shù)。這使我們能夠輕松構(gòu)建網(wǎng)絡(luò)的變體。有關(guān)梯度計(jì)算的詳細(xì)信息，請(qǐng)參見(jiàn)附錄A。

Remark 7 (Tricks): 已經(jīng)報(bào)道了許多訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技巧（LeCun等人，1998年）。選擇哪一個(gè)往往令人困惑。我們只使用了其中兩種：每個(gè)網(wǎng)絡(luò)層參數(shù)的初始化和更新是根據(jù)該層的“fan-in”完成的，即用于計(jì)算該層每個(gè)輸出的輸入數(shù)量（Plaut和Hinton，1987）。查找表（1）、線性層（4）和卷積層（6）的扇入分別為1，nl?1萬(wàn)德溫×nl?1胡。網(wǎng)絡(luò)的初始參數(shù)取自中心均勻分布，方差等于扇入平方根的倒數(shù)。（16）中的學(xué)習(xí)率除以扇入，但在訓(xùn)練期間保持不變。

3.5 Supervised Benchmark Results

對(duì)于POS、Chunking和NER任務(wù)，我們使用第3.3.1節(jié)中描述的窗口架構(gòu)報(bào)告結(jié)果。SRL任務(wù)使用句子方法（第3.3.2節(jié)）進(jìn)行訓(xùn)練。結(jié)果如表4所示，POS的每字準(zhǔn)確度（PWA）和所有其他任務(wù)的F1分?jǐn)?shù)。我們用**單詞級(jí)對(duì)數(shù)似然（WLL）和句子級(jí)對(duì)數(shù)似然（SLL）**進(jìn)行了實(shí)驗(yàn)。我們網(wǎng)絡(luò)的超參數(shù)如表5所示。

比較**基準(zhǔn)NLP系統(tǒng)**與普通神經(jīng)網(wǎng)絡(luò)（NN）方法在POS、Chunking、NER和SRL任務(wù)上的泛化性能。我們報(bào)告了單詞級(jí)對(duì)數(shù)似然（WLL）和句子級(jí)對(duì)數(shù)似然（SLL）的結(jié)果。一般化性能以POS的每字準(zhǔn)確率（PWA）和其他任務(wù)的F1分?jǐn)?shù)報(bào)告。NN結(jié)果落后于基準(zhǔn)結(jié)果，在第4節(jié)中，我們將展示如何使用未標(biāo)記的數(shù)據(jù)改進(jìn)這些模型。所有我們的網(wǎng)絡(luò)都被喂入了兩種未加工的文本特征：小寫(xiě)單詞和大寫(xiě)字母功能。我們選擇考慮小寫(xiě)詞來(lái)限制字典中單詞的數(shù)量。然而，**為了保持一些大寫(xiě)信息在這種轉(zhuǎn)換中丟失，我們添加了一個(gè)“caps”功能**，它告訴我們每個(gè)單詞是小寫(xiě)的、全大寫(xiě)的、首字母大寫(xiě)的還是至少有一個(gè)非首字母大寫(xiě)的。此外，一個(gè)單詞中出現(xiàn)的**所有數(shù)字序列都將替換為字符串“NUMBER”**，因此，例如，單詞“PS1”和“PS2”都將映射到單個(gè)單詞“psNUMBER”。我們使用了一個(gè)包含《華爾街日?qǐng)?bào)》中100000個(gè)最常見(jiàn)單詞的詞典（不區(qū)分大小寫(xiě)）。本詞典以外的單詞被一個(gè)特殊的“RARE”單詞所取代。

單詞嵌入在SRL神經(jīng)網(wǎng)絡(luò)的單詞查找表中，從零開(kāi)始訓(xùn)練，字典大小為100000。對(duì)于每一列，查詢的單詞后跟字典中的索引（越高意味著越少）及其10個(gè)最近鄰（任意使用歐幾里德度量）。

結(jié)果表明，“out-of-the-box”的神經(jīng)網(wǎng)絡(luò)落后于基準(zhǔn)系統(tǒng)。雖然我們網(wǎng)絡(luò)的初始性能低于CoNLL 挑戰(zhàn)贏家的性能，但與大多數(shù)競(jìng)爭(zhēng)對(duì)手的性能相比，它的性能相當(dāng)出色。考慮到句子結(jié)構(gòu)（SLL）的訓(xùn)練標(biāo)準(zhǔn)似乎提高了Chunking、NER和SRL任務(wù)的表現(xiàn)，對(duì)POS幾乎沒(méi)有好處。這一結(jié)果與比較句子水平和單詞水平可能性的現(xiàn)有NLP研究一致（Liang et al.，2008）。我們的網(wǎng)絡(luò)架構(gòu)的容量主要在于單詞查找表，其中包含50×100000個(gè)要訓(xùn)練的參數(shù)。在《華爾街日?qǐng)?bào)》的數(shù)據(jù)中，15%的最常用詞出現(xiàn)在90%左右的時(shí)間里。許多單詞只出現(xiàn)幾次。因此很困難正確地訓(xùn)練他們相應(yīng)的在查找表中的50維度的特征向量。理想情況下，我們希望語(yǔ)義相似的單詞在單詞查找表所表示的嵌入空間中靠近：通過(guò)神經(jīng)網(wǎng)絡(luò)函數(shù)的連續(xù)性，在語(yǔ)義相似的句子上生成的標(biāo)記將是相似的。我們?cè)诒?中顯示，情況并非如此：嵌入空間中的相鄰詞似乎在語(yǔ)義上不相關(guān)。
在下一節(jié)中，我們將重點(diǎn)介紹如何利用未標(biāo)記的數(shù)據(jù)來(lái)改進(jìn)這些單詞嵌入。我們將看到我們的方法可以提高所有任務(wù)的性能。

Remark 8（Architectures）：在本文的所有實(shí)驗(yàn)中，我們通過(guò)驗(yàn)證嘗試了幾種不同的體系結(jié)構(gòu)，從而調(diào)整了超參數(shù)。在實(shí)踐中，超參數(shù)的選擇，如隱藏單元的數(shù)量，如果它們足夠大，對(duì)泛化性能的影響是有限的。在圖4中，我們報(bào)告了驗(yàn)證集中每個(gè)任務(wù)的F1分?jǐn)?shù)，與隱藏單元的數(shù)量有關(guān)。考慮到與網(wǎng)絡(luò)初始化相關(guān)的差異，我們選擇了實(shí)現(xiàn)“合理”性能的最小網(wǎng)絡(luò)，而不是選擇在一次運(yùn)行中實(shí)現(xiàn)最高性能的網(wǎng)絡(luò)。

Remark 9 (Training Time)：訓(xùn)練我們的網(wǎng)絡(luò)在計(jì)算上相當(dāng)昂貴。Chunking和NER訓(xùn)練大約需要一個(gè)小時(shí)，POS訓(xùn)練需要幾個(gè)小時(shí)，SRL訓(xùn)練大約需要三天。訓(xùn)練速度可以更快，學(xué)習(xí)速度也可以更快，但我們更愿意堅(jiān)持小規(guī)模的訓(xùn)練，而不是尋找最適合速度的訓(xùn)練。二階方法（LeCun等人，1998年）可能是另一種加速技術(shù)。

4.大量未標(biāo)記的數(shù)據(jù)

我們希望獲得比表6所示更多的語(yǔ)法和語(yǔ)義信息的單詞嵌入。由于我們系統(tǒng)的大多數(shù)可訓(xùn)練參數(shù)都與單詞嵌入相關(guān)，這些較差的結(jié)果表明我們應(yīng)該使用更多的訓(xùn)練數(shù)據(jù)。

F1在驗(yàn)證集（y軸）上的得分與使用句子級(jí)似然（SLL）訓(xùn)練的不同任務(wù)的 **hidden units（隱藏單元）**數(shù)（x軸）的對(duì)比，如表4所示。對(duì)于SRL，我們?cè)谠搱D中只改變了第二層中的隱藏單元數(shù)。該量表適用于每項(xiàng)任務(wù)。我們展示了我們選擇的體系結(jié)構(gòu)的標(biāo)準(zhǔn)偏差（通過(guò)5次不同的隨機(jī)初始化獲得）（POS、CHUNK和NER的隱藏單位為300，SRL的隱藏單位為500）。

遵循NLP從無(wú)到有的理念，我們現(xiàn)在描述如何使用大型未標(biāo)記數(shù)據(jù)集顯著改進(jìn)這些嵌入。然后，我們使用這些改進(jìn)的嵌入來(lái)初始化第3.5節(jié)中描述的網(wǎng)絡(luò)的單詞查找表。

4.1 Data Sets

我們的第一個(gè)英語(yǔ)語(yǔ)料庫(kù)是整個(gè)英語(yǔ)維基百科。我們已刪除所有包含非羅馬字符的段落和所有MediaWiki標(biāo)記。使用Penn Treebank標(biāo)記器腳本對(duì)生成的文本進(jìn)行標(biāo)記。結(jié)果數(shù)據(jù)集包含約6.31億字。在我們之前的實(shí)驗(yàn)中，我們使用了一本包含《華爾街日?qǐng)?bào)》中100000個(gè)最常見(jiàn)單詞的詞典，對(duì)大寫(xiě)字母和數(shù)字進(jìn)行了相同的處理。同樣，字典之外的單詞被特殊的“稀有”單詞取代。我們的第二個(gè)英語(yǔ)語(yǔ)料庫(kù)是通過(guò)添加從路透社RCV1（Lewis et al.，2004）數(shù)據(jù)集中提取的額外2.21億單詞組成的。我們還增加了《路透社》中最常見(jiàn)的30000個(gè)單詞，將詞典擴(kuò)展到130000個(gè)單詞。這有助于確定是否可以通過(guò)進(jìn)一步增加未標(biāo)記數(shù)據(jù)集的大小來(lái)實(shí)現(xiàn)改進(jìn)。

4.2 Ranking Criterion versus Entropy Criterion

我們使用這些未標(biāo)記的數(shù)據(jù)集來(lái)訓(xùn)練語(yǔ)言模型，計(jì)算描述文本可接受性的分?jǐn)?shù)。這些語(yǔ)言模型同樣是使用第3.3.1節(jié)和圖1中描述的窗口方法的大型神經(jīng)網(wǎng)絡(luò)。與前一節(jié)一樣，大多數(shù)可訓(xùn)練參數(shù)位于查找表中。
Bengio和Ducharme（2001）以及Schwenk和Gauvain（2002）已經(jīng)提出了類似的語(yǔ)言模型。他們的目標(biāo)是估計(jì)一個(gè)單詞在句子中出現(xiàn)的概率。估計(jì)條件概率提出了一個(gè)類似于第3.4.1節(jié)描述的交叉熵標(biāo)準(zhǔn)。因?yàn)樽值涫呛艽蟮?#xff0c;計(jì)算歸一化項(xiàng)可能要求很高，需要精確的近似值。對(duì)我們來(lái)說(shuō)更重要的是，這兩項(xiàng)工作都沒(méi)有導(dǎo)致重大的單詞嵌入被報(bào)道。
Shannon（1951）通過(guò)讓受試者猜測(cè)即將出現(xiàn)的字符，估計(jì)出英語(yǔ)的熵在每個(gè)字符0.6到1.3位之間。Cover和King（1978）使用微妙的賭博方法給出了每個(gè)字符1.25位的下限。同時(shí)，Brown等人（1992b）使用一個(gè)簡(jiǎn)單的單詞三元模型，將每個(gè)字符的位數(shù)提高到1.75位。Teahan和Cleary（1996）使用可變長(zhǎng)度字符n-grams獲得了低至每個(gè)字符1.46位的熵。當(dāng)然，人類主體依賴于他們對(duì)語(yǔ)言和世界的所有知識(shí)。我們能通過(guò)利用每個(gè)字符0.2位來(lái)學(xué)習(xí)英語(yǔ)的語(yǔ)法結(jié)構(gòu)和世界的本質(zhì)嗎？每個(gè)字符將人類主體與簡(jiǎn)單的n-gram模型區(qū)分開(kāi)來(lái)？由于此類任務(wù)當(dāng)然需要高容量模型，因此獲取測(cè)試集熵的足夠小的置信區(qū)間可能需要非常大的訓(xùn)練集。熵準(zhǔn)則缺乏動(dòng)態(tài)范圍，因?yàn)槠鋽?shù)值很大程度上由最頻繁的短語(yǔ)決定。為了學(xué)習(xí)語(yǔ)法，罕見(jiàn)但合法的短語(yǔ)不亞于普通短語(yǔ)。
因此，有必要確定替代培訓(xùn)標(biāo)準(zhǔn)。我們?cè)诖私ㄗh使用成對(duì)排序方法（Cohen等人，1998年）。我們尋求一個(gè)網(wǎng)絡(luò)，當(dāng)給出一個(gè)合法的短語(yǔ)時(shí)，計(jì)算出的分?jǐn)?shù)比給出一個(gè)錯(cuò)誤的短語(yǔ)時(shí)要高。由于排名文獻(xiàn)通常涉及信息檢索應(yīng)用，許多作者定義了復(fù)雜的排名標(biāo)準(zhǔn)，為最佳排名實(shí)例的排序提供了更多權(quán)重（見(jiàn)Burges et al.，2007；Clémenc?on和Vayatis，2007年）。然而，在我們的案例中，我們不想強(qiáng)調(diào)最常見(jiàn)的短語(yǔ)而不是罕見(jiàn)但合法的短語(yǔ)。因此，我們使用一個(gè)簡(jiǎn)單的成對(duì)標(biāo)準(zhǔn)。
我們考慮一個(gè)窗口逼近網(wǎng)絡(luò)，如第3. 3節(jié)1和圖1所描述的，其中參數(shù) $θ\theta$ 輸出一個(gè)文本 $x = [ w ] _ { 1 } ^ { d _ { w i n } }$ 的窗口的分?jǐn)?shù)$f _ { \theta } $。我們最小化關(guān)于θ的排名標(biāo)準(zhǔn)：

其中 $X$ 是所有可能的文本窗口集合，其中 $d_{win}$ 單詞來(lái)自我們的訓(xùn)練語(yǔ)料庫(kù)， $D$ 是單詞詞典， $X^{（w）}$ 表示通過(guò)將文本窗口 $w ] _ { 1 } ^ { d }$ 的中心單詞替換為單詞 $w$ 而獲得的文本窗口。

Okanohara和Tsujii（2007）使用相關(guān)方法避免使用二元分類方法（正確/錯(cuò)誤短語(yǔ)）的熵標(biāo)準(zhǔn)。他們的工作重點(diǎn)是使用內(nèi)核分類器，而不是像我們?cè)谶@里所做的那樣學(xué)習(xí)單詞嵌入。Smith和Eisner（2005）還提出了一個(gè)對(duì)比標(biāo)準(zhǔn)，用于估計(jì)數(shù)據(jù)條件化為“負(fù)”鄰域的可能性。他們考慮不同的數(shù)據(jù)街區(qū)，包括來(lái)自 $d_{win}$ 的 $D^{d_{win}}$ 長(zhǎng)度的句子。然而，他們的目標(biāo)是在完全無(wú)監(jiān)督的數(shù)據(jù)上完成一些標(biāo)記任務(wù)，而不是獲得對(duì)其他任務(wù)有用的通用單詞嵌入。

總結(jié)

以上是生活随笔為你收集整理的论文阅读笔记（一）【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch（未完）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：软件oem要注意什么_化妆品OEM客户要
下一篇： af_netlink_2、netlink