當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

序列标注模型综述

發布時間：2023/12/9 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了序列标注模型综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

命名實體識別是序列標注的子問題，需要將元素進行定位和分類，如人名、組織名、地點、時間、質量等。命名實體識別的任務就是識別出待處理文本中三大類（實體類、時間類和數字類）、七小類（人名、機構名、地名、時間、日期、貨幣和百分比） 命名實體。

一般來說進行命名實體識別的方法可以分成兩大類：基于規則的方法和基于統計的方法。
基于規則的方法是要人工建立實體識別規則，存在著成本高昂的缺點。
基于統計的方法一般需要語料庫來進行訓練，常用的方法有最大熵、CRF、HMM、神經網絡等方法。

逐一介紹。

1. 必備知識點

1.1 概率圖

1.1.1 概覽

在統計概率圖（probability graph models）中，參考宗成慶老師的書，是這樣的體系結構：

在概率圖模型中，數據(樣本)由公式 $G = (V, E)$ 建模表示：

$V$ 表示節點，即隨機變量（可以是一個token或者一個label），具體地，用 $Y=(y_1,y_2,...y_n)$ 為隨機變量建模，注意 $Y$ 現在是代表了一批隨機變量（想象對應一條sequence，包含了很多的token）， $P (Y)$ 為這些隨機變量的分布；
$E$ 表示邊，即概率依賴關系。后面結合HMM或CRF的graph具體解釋。

1.1.2 有向圖 vs 無向圖

上圖可以看到，貝葉斯網絡（信念網絡）都是有向的，馬爾可夫網絡無向。所以，貝葉斯網絡適合為有單向依賴的數據建模，馬爾可夫網絡適合實體之間互相依賴的建模。具體地，他們的核心差異表現在如何求 $P = (Y)$ ，即怎么表示 $Y=(y1,? ,yn）Y=(y_{1},\cdots,y_{n}）$ 這個的聯合概率。

有向圖
對于有向圖模型，這么求聯合概率：

舉個例子，對于下面的這個有向圖的隨機變量：

應該這樣表示他們的聯合概率:

無向圖
對于無向圖，一般就指馬爾可夫網絡。

如果一個圖太大，可以用因子分解將 P=(Y) 寫為若干個聯合概率的乘積。將一個圖分為若干個“小團”，注意每個團必須是“最大團”。則有：

其中：

所以像上面的無向圖：

其中， $ψc(Yc)\psi_{c}(Y_{c} )$ 是一個最大團 C 上隨機變量們的聯合概率，一般取指數函數的：

上面的函數叫做勢函數。注意 $e∑kλkfk(c,y∣c,x)e^{\sum_{k}\lambda_{k}f_{k}(c,y|c,x)}$ 即有CRF的影子~

那么概率無向圖的聯合概率分布可以在因子分解下表示為：

上述公式是CRF的開端~

1.1.3 齊次馬爾可夫假設&馬爾可夫性

齊次馬爾科夫假設
齊次馬爾科夫假設，這樣假設：馬爾科夫鏈 $x_1,x_2,...,x_n)$ 里的 $x_i$ 總是只受 $x_{i-1}$ 一個參數的影響。
馬爾科夫假設這里相當于就是個1-gram。

馬爾科夫過程呢？即，在一個過程中，每個狀態的轉移只依賴于前n個狀態，并且只是個n階的模型。最簡單的馬爾科夫過程是一階的，即只依賴于其哪一個狀態。

馬爾科夫性馬爾科夫性是是保證或者判斷概率圖是否為概率無向圖的條件。
三點內容：a. 成對，b. 局部，c. 全局。

1.2 判別式（discriminative）模型 vs. 生成式(generative)模型

在監督學習下，模型可以分為判別式模型與生成式模型。
根據經驗，A批模型（神經網絡模型、SVM、perceptron、LR、DT……）與B批模型（NB、LDA……）的區別：

A批模型是這么工作的，他們直接將數據的Y（或者label），根據所提供的features，學習，最后畫出了一個明顯或者比較明顯的邊界（具體怎么做到的？通過復雜的函數映射，或者決策疊加等等mechanism），這一點線性LR、線性SVM很明顯。

B批模型是這么工作的，他們先從訓練樣本數據中，將所有的數據的分布情況摸透，然后最終確定一個分布，來作為所有的輸入數據的分布，并且他是一個聯合分布

P (X, Y)

(注意

X

包含所有的特征

x_i

，

Y

包含所有的label)。然后來了新的樣本數據（inference），通過學習來的模型的聯合分布

P (X, Y)

，再結合新樣本給的

X

，通過條件概率就能出來

Y

：

判別式模型

A批模型對應了判別式模型。根據上面的兩句話的區別，可以知道判別模型的特征了，所以有句話說：判別模型是直接對 $P (Y ∣ X)$ 建模，即直接根據X特征來對Y建模訓練。
具體地，訓練過程是確定構件 $P (Y ∣ X)$ 模型里面“復雜映射關系”中的參數，然后再去inference一批新的sample。
- 所以判別式模型的特征總結如下：
對 P(Y|X) 建模
對所有的樣本只構建一個模型，確認總體判別邊界
根據新輸入數據的特征，預測最可能的label
判別式的優點是：對數據量要求沒生成式的嚴格，速度也會快，小數據量下準確率也會好些。
生成式模型
B批模型對應了生成式模型。并且需要注意的是，在模型訓練中，學習到的是X與Y的聯合模型 $P (X, Y)$ ，也就是說，在訓練階段是只對 $P (X, Y)$ 建模，需要確定維護這個聯合概率分布的所有的信息參數。完了之后在inference再對新的sample計算 $P (Y ∣ X)$ ，導出 $Y$ ,但這已經不屬于建模階段了。

結合NB過一遍生成式模型的工作流程。學習階段，建模： $P (X, Y) = P (X ∣ Y) P (Y)$ ,然后 $\frac{P(X,Y)}{P(X)}$ 。另外，LDA也是這樣，只是需要確定很多個概率分布，并且建模抽樣都比較復雜。
- 所以生成式總結下有如下特點：
對 $P (X, Y)$ 建模
這里我們主要講分類問題，所以是要對每個label( $y_i$ )都需要建模，最終選擇最優概率的label為結果，所以沒有什么判別邊界。（對于序列標注問題，那只需要構件一個model）
中間生成聯合分布，并可生成采樣數據。
生成式模型的優點在于，所包含的信息非常齊全，所以不僅可以用來輸出label，還可以干其他的事情。生成式模型關注結果是如何產生的。但是生成式模型需要非常充足的數據量以保證采樣到了數據本來的面目，所以速度相比之下，慢。

最后identity the picture below:

1.3 序列建模

常見的序列有如：時序數據、本文句子、語音數據等等。廣義下的序列有這些特點：

節點之間有關聯依賴性/無關聯依賴性序列的
節點是隨機的/確定的
序列是線性變化/非線性的……

對不同的序列有不同的問題需求，常見的序列建模方法總結有如下：

擬合，預測未來節點（或走勢分析）：
a. 常規序列建模方法：AR、MA、ARMA、ARIMA
b. 回歸擬合
c. Neural Networks

判斷不同序列類別，即分類問題：HMM、CRF、General Classifier（ML models、NN models）

不同時序對應的狀態的分析，即序列標注問題：HMM、CRF、RecurrentNNs

本文只關注在2. & 3. 類問題下的建模過程和方法。

1. 最大熵模型

2. 隱馬爾可夫模型HMM

2.1理解HMM

HMM屬于典型的生成式模型。對照1.2的講解，是要從訓練數據中學到數據的各種分布，這正是HMM的5要素，其中有3個就是整個數據的不同角度的概率分布：

$Q$ , 隱藏狀態集 $N=\{q_1,q_2,...,q_N\}$ , 隱藏節點不能隨意取，只能限定取包含在隱藏狀態集中的符號。，
$V$ , 觀測集 $M=\{v_1,v_2,...v_M\}$ , 同樣觀測節點不能隨意取，只能限定取包含在觀測狀態集中的符號。
A ，狀態轉移概率矩陣，這是其中一個概率分布。 $A=[a_{ij}]_{N*M}$ （N為隱藏狀態集元素個數），其中 $a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$ 即第i個隱狀態節點在t時刻處于狀態 $q_i$ 的條件下在t+1轉移到 $q_j$ 的概率。
B，觀測概率矩陣，這個就是另一個概率分布。 $B=[b_{ij}]_{N*M}$ （N為隱藏狀態集元素個數，M為觀測集元素個數），其中 $b_{ij}=P(o_t=v_k|i_t=q_j)$ 即第i個觀測節點時刻t處于狀態 $q_j$ 的條件下生成觀測 $v_k$ 的概率。
$π$ ，初始狀態概率向量： $π=(π_i)$ ,其中， $π_i=P(i_1=q_i)$ ，是時刻t=1處于狀態 $q_i$ 的概率。

隱馬爾科夫模型由初始狀態向量 $π$ ，狀態轉移矩陣A和觀測概率矩陣B決定。。 $π$ 和A決定狀態序列，B決定觀測序列。因此，馬爾科夫模型可以用三元符號表示，即 $λ\lambda$ =(A,B, $π$ ),A,B, $π$ 稱為隱馬爾科夫模型的三要素。

狀態轉移概率矩陣A與初始狀態概率向量 $π$ 確定了隱藏的馬爾科夫鏈，生成不可觀測的狀態序列。
觀測概率矩陣B與狀態序列綜合確定了如何產生觀測序列。

模型先去學習確定以上5要素，之后在inference階段的工作流程是：首先，隱狀態節點 $i_t$ 是不能直接觀測到的數據節點， $o_t$ 才是能觀測到的節點，并且注意箭頭的指向表示了依賴生成條件關系， $i_t$ 在A的指導下生成下一個隱狀態節點 $i_{t+1}$ ，并且 $i_t$ 在 B 的指導下生成依賴于該 $i_t$ 的觀測節點 , 并且只能觀測到序列 $o_1,o_2,...o_i)$ 。
舉例子說明（序列標注問題，POS，標注集BES）：
input: “學習出一個模型，然后再預測出一條指定”
expected output: 學/B 習/E 出/S 一/B 個/E 模/B 型/E ，/S 然/B 后/E 再/E 預/B 測/E ……
其中，input里面所有的char構成的字表，形成觀測集，因為字序列在inference階段是我所能看見的；
標注集BES構成隱藏狀態集，這是無法直接獲取的，也是預測任務；至于A,B, $π$ ，這些概率分布信息都是在學習過程中所確定的參數。

高層次的理解：

根據概率圖分類，可以看到HMM屬于有向圖，并且是生成式模型，直接對聯合概率分布建模:

(注意，這個公式不在模型運行的任何階段能體現出來，只是都這么來表示HMM是個生成式模型，他的聯合概率

P (O, I)

就是這么計算的)。

并且B中

b_{ij}=P(o_t|i_t)

，這意味著o對i有依賴性。

在A中，

a_{ij}=P(i_{t+1|i_t})

，也就是說只遵循了一階馬爾科夫假設，1-gram。試想，如果數據的依賴超過1-gram，那肯定HMM肯定是考慮不進去的。這一點限制了HMM的性能。

2.2 模型運行過程

模型的運行過程（工作流程）對應了HMM的3個問題。
2.2.1 學習訓練過程
對照1.2的講解，HMM學習訓練的過程，就是找出數據的分布情況，也就是模型參數的確定。
主要學習算法按照訓練數據除了觀測狀態序列 $o_1,o_2,...o_i)$ 是否還有隱狀態序列 $i_1,i_2,...i_i)$ 分為：

極大似然估計, with 隱狀態序列
Baum-Welch(前向后向), without 隱狀態序列
這里不展開講~

3. 條件隨機場CRF

4. Bi-LSTM+CRF

該命名實體識別方法是一種將深度學習方法和機器學習方法相結合的模型。

Bi-LSTM+CRF模型結構圖

如圖：

輸入層是一個將文本序列中的每個漢字利用預先訓練好的字向量進行向量化，作為Bi-LSTM層的輸入。

利用一個雙向的LSTM(Bi-LSTM)對輸入序列進行encode操作，也就是進行特征提取操縱。采用雙向LSTM的效果要比單向的LSTM效果好，因為雙向LSTM將序列正向和逆向均進行了遍歷，相較于單向LSTM可以提取到更多的特征。

在經過雙向LSTM層之后，我們這里使用一個CRF層進行decode，將Bi-LSTM層提取到的特征作為輸入，然后利用CRF從這些特征中計算出序列中每一個元素的標簽。

CRF是機器學習的方法，機器學習中困難的一點就是如何選擇和構造特征。Bi-LSTM屬于深度學習方法，深度學習的優勢在于不需要人為的構造和選擇特征，模型會根據訓練語料自動的選擇構造特征。因此采用Bi-LSTM進行特征的選擇構造，然后采用CRF根據得到的特征進行decode，得到最終的序列標注的結果。這樣講深度學習和機器學習相結合的，互相取長補短。

參考：https://www.zhihu.com/search?type=content&q=條件隨機場
https://www.zhihu.com/question/35866596/answer/236886066

總結

以上是生活随笔為你收集整理的序列标注模型综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： c oracle 记录,ORACLE 1
下一篇：存储结构与索引