日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

深度学习学习笔记-双向LSTM-CRF模型论文研读

發(fā)布時(shí)間:2023/12/31 pytorch 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习学习笔记-双向LSTM-CRF模型论文研读 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

概念引入

命名實(shí)體識(shí)別

命名實(shí)體識(shí)別(Named Entity Recognition,NER)是NLP中一項(xiàng)非常基礎(chǔ)的任務(wù)。NER是信息提取、問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯等眾多NLP任務(wù)的重要基礎(chǔ)工具。

定義

命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專(zhuān)名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等。簡(jiǎn)單的講,就是識(shí)別自然文本中的實(shí)體指稱的邊界和類(lèi)別。

信息抽取

信息抽取(information extraction),即從自然語(yǔ)言文本中,抽取出特定的事件或事實(shí)信息,幫助我們將海量?jī)?nèi)容自動(dòng)分類(lèi)、提取和重構(gòu)。這些信息通常包括實(shí)體(entity)、關(guān)系(relation)、事件(event)。例如從新聞中抽取時(shí)間、地點(diǎn)、關(guān)鍵人物,或者從技術(shù)文檔中抽取產(chǎn)品名稱、開(kāi)發(fā)時(shí)間、性能指標(biāo)等。

顯然,信息抽取任務(wù)與命名實(shí)體識(shí)別任務(wù)類(lèi)似,但相對(duì)來(lái)說(shuō)更為復(fù)雜。有時(shí),信息抽取也被稱為事件抽取(event extraction)。

與自動(dòng)摘要相比,信息抽取更有目的性,并能將找到的信息以一定的框架展示。自動(dòng)摘要輸出的則是完整的自然語(yǔ)言句子,需要考慮語(yǔ)言的連貫和語(yǔ)法,甚至是邏輯。有時(shí)信息抽取也被用來(lái)完成自動(dòng)摘要。

由于能從自然語(yǔ)言中抽取出信息框架和用戶感興趣的事實(shí)信息,無(wú)論是在知識(shí)圖譜、信息檢索、問(wèn)答系統(tǒng)還是在情感分析、文本挖掘中,信息抽取都有廣泛應(yīng)用

概率圖模型

概率圖模型是用圖來(lái)表示變量概率依賴關(guān)系的理論,結(jié)合概率論與圖論的知識(shí),利用圖來(lái)表示與模型有關(guān)的變量的聯(lián)合概率分布。由圖靈獎(jiǎng)獲得者Pearl開(kāi)發(fā)出來(lái)。概率圖模型理論分為概率圖模型表示理論,概率圖模型推理理論和概率圖模型學(xué)習(xí)理論。近10年它已成為不確定性推理的研究熱點(diǎn),在人工智能、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等領(lǐng)域有廣闊的應(yīng)用前景。簡(jiǎn)單來(lái)說(shuō)就是就是一類(lèi)用圖來(lái)表達(dá)變量相關(guān)關(guān)系的概率模型,通常用一個(gè)節(jié)點(diǎn)表示一個(gè)或一組隨機(jī)變量,節(jié)點(diǎn)間的邊表示變量間的概率關(guān)系,分為有向無(wú)環(huán)圖(貝葉斯網(wǎng)) + 無(wú)向圖模型(馬爾科夫網(wǎng))

馬爾可夫模型
簡(jiǎn)單來(lái)說(shuō),就是使用條件概率表示過(guò)去,現(xiàn)在,將來(lái)

此為一階馬爾科夫模型

從這個(gè)式子可以看出,xi 僅僅與 xi-1有關(guān),二跟他前面的都沒(méi)有關(guān)系了,這就是一階過(guò)程。
馬爾科夫過(guò)程指的是一個(gè)狀態(tài)不斷演變的過(guò)程,對(duì)其進(jìn)行建模后稱之為馬爾科夫模型,在一定程度上,馬爾科夫過(guò)程和馬爾科夫鏈?zhǔn)堑葍r(jià)的。

隱馬爾可夫模型(HMM)
隱馬爾可夫模型(Hidden Markov Model,HMM)描述由隱藏的馬爾可夫鏈隨機(jī)生成觀測(cè)序列的過(guò)程,屬于生成模型。

HMM是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)隨機(jī)序列(狀態(tài)序列),再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生的觀測(cè)隨機(jī)序列(觀測(cè)序列)的過(guò)程。
隱馬爾可夫模型是由馬爾可夫鏈生成隨機(jī)不可觀測(cè)的隨機(jī)狀態(tài)序列,再由各個(gè)狀態(tài)生成可觀測(cè)的隨機(jī)序列


HMM模型的兩個(gè)基本的假設(shè)
HMM 的定義建立在兩個(gè)基本假設(shè)的前提上,這兩個(gè)假設(shè)是 HMM 的重點(diǎn),一定要了解模型的 2 個(gè)假設(shè)。

1齊次馬爾科夫假設(shè)
齊次馬爾科夫假設(shè),通俗地說(shuō)就是 HMM 的任一時(shí)刻 t 的某一狀態(tài)只依賴于其前一時(shí)刻的狀態(tài),與其它時(shí)刻的狀態(tài)及觀測(cè)無(wú)關(guān),也與時(shí)刻 t 無(wú)關(guān)。

2觀測(cè)獨(dú)立假設(shè)
觀測(cè)獨(dú)立性假設(shè),是任一時(shí)刻的觀測(cè)只依賴于該時(shí)刻的馬爾科夫鏈的狀態(tài),與其他觀測(cè)及狀態(tài)無(wú)關(guān)。

HMM模型解決的3個(gè)問(wèn)題
1,評(píng)估問(wèn)題,已知模型參數(shù) λ= (A, B, π),計(jì)算某個(gè)觀測(cè)序列發(fā)生的概率,即求P(O|λ)
2,解碼問(wèn)題,給出觀測(cè)序列O和模型λ= (A, B, π),選擇一個(gè)狀態(tài)序列S(s1,s2,…st+1),能最好的解釋觀測(cè)序列O
3,學(xué)習(xí)問(wèn)題,觀測(cè)序列O,如何估計(jì)模型參數(shù) λ=(π, A, B), 使得P(O|λ)最大? 利用極大似然估計(jì)。

條件隨機(jī)場(chǎng)
?條件隨機(jī)場(chǎng)(Conditional random field,CRF)是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型,其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫隨機(jī)場(chǎng)。條件隨機(jī)場(chǎng)常用于序列標(biāo)注問(wèn)題,比如命名實(shí)體識(shí)別等

設(shè)兩組隨機(jī)變量𝑋 = ( 𝑋 1 , . . . , 𝑋 𝑛 ), 𝑌 = ( 𝑌 1 , . . . , 𝑌 𝑛 ),那么線性鏈條件隨機(jī)場(chǎng)的定義為
𝑃 ( 𝑌 𝑖 | 𝑋 , 𝑌 1 , . . . , 𝑌 𝑖 ? 1 , 𝑌 𝑖 + 1 , . . . , 𝑌 𝑛 ) = 𝑃 ( 𝑌 𝑖 | 𝑋 , 𝑌 𝑖 ? 1 , 𝑌 𝑖 + 1 ) , 𝑖 = 1 , . . . , 𝑛
其中當(dāng) i 取1 或n時(shí)只考慮單邊。

用于序列標(biāo)注問(wèn)題的線性鏈條件隨機(jī)場(chǎng),
是由輸入序列來(lái)預(yù)測(cè)輸出序列的判別式模型。

判別方式:特征函數(shù)(可以簡(jiǎn)單理解為強(qiáng)化學(xué)習(xí)中的狀態(tài)函數(shù))

轉(zhuǎn)移特征𝑡 𝑘 ( 𝑦 𝑖 ? 1 , 𝑦 𝑖 , 𝑥 , 𝑖 )是定義在邊上的特征函數(shù)(transition),依賴于當(dāng)前位置 i 和前
位 置 i - 1 ,對(duì)應(yīng)的權(quán)值為 𝜆 𝑘
狀態(tài)特征𝑠 𝑙( 𝑦 𝑖 , 𝑥 , 𝑖 )是定義在節(jié)點(diǎn)上的特征函數(shù)(s t a t e )依賴于當(dāng)前位置 i ,對(duì)應(yīng)的權(quán)值為 𝜇 𝑙
特征函數(shù)的取值為1或0,當(dāng)滿足規(guī)定好的特征條件時(shí)取值為1,否則為0

前向算法

概率計(jì)算問(wèn)題:已知模型參數(shù)(π, A, B)和觀測(cè)序列O = (o1, o2, … ,oT),計(jì)算觀測(cè)序列出現(xiàn)的概率。
直接計(jì)算法:窮舉,計(jì)算量大,不可行
前向算法:基于狀態(tài)序列的路徑結(jié)構(gòu)遞推計(jì)算,局部計(jì)算前向概率,利用路徑結(jié)構(gòu)將前向概率遞推到全局。

維特比算法(Viterbi)
定義:一種用以選擇最優(yōu)路徑的動(dòng)態(tài)規(guī)劃算法,從開(kāi)始狀態(tài)后每走一步,記錄到達(dá)該狀態(tài)所有路徑的最大概率值,最后以最大值為基準(zhǔn)繼續(xù)向后推進(jìn)。最后再?gòu)慕Y(jié)尾回溯最大概率, 也就是最有可能的最優(yōu)路徑.

簡(jiǎn)單來(lái)說(shuō)就是概率論里面的傳染病模型

維特比解碼(Viterbi Decoding)
就是維特比算法的解題過(guò)程

命名實(shí)體識(shí)別的發(fā)展歷程
早期方法
1基于規(guī)則的方法
2基于字典的方法

傳統(tǒng)機(jī)器學(xué)習(xí)的方法
HMM
MEMM
CRF

深度學(xué)習(xí)方法
BILSTM-CRF
LATTICE-LSTM-CRF
CNN-CRF
注意力轉(zhuǎn)移機(jī)制
遷移學(xué)習(xí)(Bert框架)
半監(jiān)督學(xué)習(xí)

論文的背景

序列標(biāo)注問(wèn)題(sequence labeling, also named as tagging)可以看作許多自然語(yǔ)言處理問(wèn)題的前驅(qū),如情感分析,信息檢索、推薦和過(guò)濾等等。同時(shí)在自然語(yǔ)言處理中,許多的任務(wù)可以轉(zhuǎn)化為“將輸入的語(yǔ)言序列轉(zhuǎn)化為標(biāo)注序列”來(lái)解決問(wèn)題,因此序列標(biāo)注是自然語(yǔ)言處理中的重要研究?jī)?nèi)容之一

當(dāng)時(shí)(2015)的序列標(biāo)記模型大多是線性統(tǒng)計(jì)模型,如隱馬爾可夫模型(HMM),最大熵馬爾可夫模型(MEMMS),條件隨機(jī)場(chǎng)(CRF)

論文主要內(nèi)容

BILSTM-CRF模型的結(jié)構(gòu)

1 . 句中轉(zhuǎn)化為字詞向量序列,字詞向量可以預(yù)訓(xùn)練好或隨機(jī)初始化,在模型訓(xùn)練中還可以再訓(xùn)練
2 . 經(jīng)BiLSTM特征提取,輸出是每個(gè)單詞對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽
3 . 經(jīng)CRF層約束,輸出最優(yōu)標(biāo)簽序列

步驟1:Word embedding
目的:使得文字在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)一一對(duì)應(yīng),一個(gè)蘿卜一個(gè)坑,聯(lián)想數(shù)學(xué)中的函數(shù)
流程:

  • 將一個(gè)含有n個(gè)詞的句子記作:x = (x1,x2,….xn)
  • 利用預(yù)訓(xùn)練的embedding矩陣將每個(gè)字映射為低維稠密的向量

步驟2:BiLSTM Extracting text features(BiLSTM提取文本特征)

原理:門(mén)機(jī)制
作用:LSTM引入了一個(gè)門(mén)記憶機(jī)制,使用記憶細(xì)胞來(lái)捕獲長(zhǎng)距離依賴
LSTM在每個(gè)t時(shí)刻都選擇性地改變記憶,從而有效解決RNN的長(zhǎng)距離依賴

f-forget(遺忘門(mén))
i-input(輸入門(mén))
o-output(輸出門(mén))
c-cell(由f和i組成)
h -hidden(隱狀態(tài))

這些門(mén)由sigmoid函數(shù)表達(dá),輸出值為1(保留)和0(舍棄)
關(guān)于sigmoid的推導(dǎo)詳見(jiàn)

方法流程:

  • 將一個(gè)句子各個(gè)字的Embedding序列作為雙向LSTM各個(gè)時(shí)間步的輸入
  • 將正反向輸出的隱狀態(tài)進(jìn)行拼接,得到完整的隱狀態(tài)序列

LSTM通過(guò)記憶單元來(lái)解決長(zhǎng)距離依賴問(wèn)題,但LSTM是一種前向傳播算法,因此對(duì)命名實(shí)體識(shí)別而言,需要反向傳播的LSTM進(jìn)行學(xué)習(xí),即BiLSTM:

  • 一個(gè)LSTM網(wǎng)絡(luò)計(jì)算前向的隱特征
  • 另一個(gè)LSTM網(wǎng)絡(luò)計(jì)算后向的隱特征
  • 把這兩個(gè)LSTM輸出的結(jié)果拼接,就得到雙向LSTM網(wǎng)絡(luò),由此將前向傳播與反向傳播結(jié)合,大大提高算法的準(zhǔn)確率

    由此,我們就能達(dá)到高效的表示出這個(gè)單詞在上下文中的含義,在標(biāo)準(zhǔn)Bi-LSTM中,輸出通過(guò)接入SoftMax輸出層預(yù)測(cè)節(jié)點(diǎn)間的分類(lèi)標(biāo)簽的目的

步驟3: Get P Matrix(得到P矩陣)
方法流程

  • 將完整的隱狀態(tài)序列接入線性層,從n維映射到k維,其中k是標(biāo)注集的標(biāo)簽數(shù)
  • 從而得到自動(dòng)提取的句子特征,記作矩陣P =(p1,p2,….pn),注意該矩陣是非歸一化矩陣
  • 其中pi表示該單詞對(duì)應(yīng)各個(gè)類(lèi)別的分?jǐn)?shù)如圖所示,雙向BiLSTM輸出矩陣1.5(B-Person),0.9(IPerson),0.1(B-Organization),0.08(I-Organization)這些分?jǐn)?shù)將是CRF層的輸入

發(fā)射分?jǐn)?shù),是BiLSTM層的輸出。用 X i y j 代表發(fā)射分?jǐn)?shù),i 是單詞的位置索引,y j 是類(lèi)別的索引

步驟4:CRF層的引入
加CRF的原因
NER是一類(lèi)特殊的任務(wù),因?yàn)楸碚鳂?biāo)簽的可解釋序列“語(yǔ)法”強(qiáng)加了幾個(gè)硬約束, 可能的約束有:

  • 判定B-label1 I-label2 I-label3…為錯(cuò)誤
  • 判定“O I-label”是錯(cuò)誤的
  • 命名實(shí)體的開(kāi)頭應(yīng)該是“B-”而不是“I-”(是先Begin后input而不是直接input,觀察上一張圖的最頂層)
    CRF層能夠?qū)W習(xí)到句子的前后關(guān)聯(lián),從而加入一些約束來(lái)保證最終預(yù)測(cè)結(jié)果有效
  • 轉(zhuǎn)移分?jǐn)?shù)(Transition score)

    轉(zhuǎn)移分?jǐn)?shù),來(lái)自CRF層可以學(xué)到的轉(zhuǎn)移矩陣 。
    轉(zhuǎn)移矩陣是BiLSTM -CRF模型的一個(gè)參數(shù)。可隨機(jī)初始化轉(zhuǎn)移矩陣的分?jǐn)?shù),然后在訓(xùn)練中更新

    步驟5:最終結(jié)果的計(jì)算 (Calculation of the final result)

    CRF考慮前后標(biāo)記依賴約束,綜合使用標(biāo)記狀態(tài)轉(zhuǎn)換概率作為
    評(píng)分:
    上式意為對(duì)整個(gè)序列x,整個(gè)序列標(biāo)注的打分等于各個(gè)位置的
    打分之和,打分為2部分:
    1) 前者由BiLSTM輸出的pi決定
    2)后者由CRF轉(zhuǎn)移矩陣A決定,其中Ayi-1,yi表示從第yi-1個(gè)
    標(biāo)簽到第yi個(gè)標(biāo)簽的轉(zhuǎn)移得分

    路徑分?jǐn)?shù)
    Path score
    Si = EmissionScore + TransitionScore

    CRF損失函數(shù)
    CRF損失函數(shù)由兩部分組成,真實(shí)路徑的分?jǐn)?shù)和所有路徑的總分?jǐn)?shù)。既然是最優(yōu)化的考慮,那么真實(shí)路徑的分?jǐn)?shù)就是所有路徑中分?jǐn)?shù)最高的那條路徑。

    當(dāng)前節(jié)點(diǎn)的得分
    類(lèi)似維特比解碼算法,這里每個(gè)節(jié)點(diǎn)記錄之前所有節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的路徑總和,最后一步即可得到所有路徑的總和。

    所有路徑得分
    每個(gè)節(jié)點(diǎn)記錄之前所有節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的路徑得分總和,那么最后一步就可以得到所有路徑得分的總和

    對(duì)最優(yōu)選擇的預(yù)測(cè)


    預(yù)測(cè)采用維特比解碼,每個(gè)節(jié)點(diǎn)記錄之前所有節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的最優(yōu)路徑,最后一步通過(guò)回溯即可得一條最優(yōu)的路徑

    模型的效果

    • 雙向LSTM可以綜合利用過(guò)去和未來(lái)的特征
    • CRF可以利用句子的特征
    • BiLSTM-CRF模型效果好、魯棒性強(qiáng)、對(duì)詞向量依賴不強(qiáng)
    • 實(shí)際上CRF就是序列版本的邏輯回歸 ( logisticregression )。正如邏輯回歸是分類(lèi)問(wèn)題的對(duì)數(shù)線性模型, C R F 是序列標(biāo)注問(wèn)題的對(duì)數(shù)線性模型

    論文的成果

    提出了一系列基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注模型:LSTM、BI-LSTM、LSTM-CRF、BILSTM-CRF

    • 首次將BI-LSTM-CRF模型用于序列標(biāo)注任務(wù)
    • 證明BI-LSTM-CRF模型的可靠性(對(duì)詞特征依賴不強(qiáng))

    論文的意義

    是命名實(shí)體識(shí)別深度學(xué)習(xí)時(shí)代的開(kāi)端
    使模型更簡(jiǎn)潔高效,魯棒性強(qiáng)(魯棒是Robust的音譯,也就是健壯和強(qiáng)壯的意思。它也是在異常和危險(xiǎn)情況下系統(tǒng)生存的能力。)

    模型的優(yōu)勢(shì)

    相對(duì)于HMM(隱馬爾可夫模型)來(lái)說(shuō),
    CRF更加強(qiáng)大:CRF 可以為任何HMM 能夠建模的對(duì)象建模,甚至更多
    CRF可以定義更加廣泛的特征集
    而HMM在本質(zhì)上必然是局部的,而CRF就可以使用更加全局的特征
    CRF可以有任意權(quán)重值,HMM的概率值必須滿足特定的約束

    總結(jié)

    以上是生活随笔為你收集整理的深度学习学习笔记-双向LSTM-CRF模型论文研读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。