日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

全连接条件随机场_CRF条件随机场

發布時間:2024/1/23 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 全连接条件随机场_CRF条件随机场 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

概念

??條件隨機場(Conditional Random Fields, 以下簡稱CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,在自然語言處理中得到了廣泛應用。

引入

??假設我們有Bob一天從早到晚的一系列照片,Bob想考考我們,要我們猜這一系列的每張照片對應的活動,比如: 工作的照片,吃飯的照片,唱歌的照片等等。一個比較直觀的辦法就是,我們找到Bob之前的日常生活的一系列照片,然后找Bob問清楚這些照片代表的活動標記,這樣我們就可以用監督學習的方法來訓練一個分類模型,比如邏輯回歸,接著用模型去預測這一天的每張照片最可能的活動標記。

??這種辦法雖然是可行的,但是卻忽略了一個重要的問題,就是這些照片之間的順序其實是有很大的時間順序關系的,而用上面的方法則會忽略這種關系。比如我們現在看到了一張Bob閉著嘴的照片,那么這張照片我們怎么標記Bob的活動呢?比較難去打標記。但是如果我們有Bob在這一張照片前一點點時間的照片的話,那么這張照片就好標記了。如果在時間序列上前一張的照片里Bob在吃飯,那么這張閉嘴的照片很有可能是在吃飯咀嚼。而如果在時間序列上前一張的照片里Bob在唱歌,那么這張閉嘴的照片很有可能是在唱歌。

??為了讓我們的分類器表現的更好,可以在標記數據的時候,可以考慮相鄰數據的標記信息。這一點,是普通的分類器難以做到的。而這一塊,也是CRF比較擅長的地方。

HMM-隱馬爾科夫模型

??給定一個觀測序列observations, HMM models joint probability . 以詞性標注任務舉例。 ??稍不同于linear CRF,HMM可以用有向圖模型來表示,因為states與observations之間存在著明顯的依賴關系。下圖為有向圖!! 在HMM的模型下,有兩個假設:

  • 齊次馬爾科夫假設(S)
  • 觀測獨立假設
  • 公式:

    公式表示的是在特定的句子下,序列集合中找到概率最大的詞性序列! W and T 指輸入單詞序列,和輸出詞性序列。 公式首先應用了貝葉斯公式展開,隨后 HMM 做了3個假設進行公式化簡:由詞之間 conditionally independent 得到∏i=1nPr(Wi∣T)prod_{i=1}^{n}Pr(Wi|T)i=1∏n?Pr(Wi∣T) 由probability of a word is only dependent on its own tag 得到發射概率 emission probability ∏i=1nPr(Wi∣ti)prod_{i=1}^{n}Pr(Wi|ti)i=1∏n?Pr(Wi∣ti) and Markov assumption: 使用bi-gram近似得到轉移概率 Transition probabilityPr(ti∣ti?1)Pr(ti|ti-1)Pr(ti∣ti?1)

    ??這些假設使得HMM能夠計算出給定一個詞和它可能的詞性的聯合概率分布。換句話說,HMM假設了兩類特征,一是當前詞詞性與上一個詞詞性的關系,以及當前詞語和當前詞性的關系,所以存在局部歸一化問題,分別對應著轉移概率和發射概率。HMM的學習過程就是在訓練集中學習這兩個概率矩陣(大小為 (tt),(tw))。

    稍不同于linear CRF,HMM可以用有向圖模型來表示,因為states與observations之間存在著明顯的依賴關系。

    CRF條件隨機場

    ??和HMM不同的是,CRF并沒有做出上述的假設,CRF使用feature function來更抽象地表達特征,使得他不再局限于HMM的兩類特征。由節點v和連接節點的邊e組成的集合。記作G=(V,E)。CRF是無向圖,無向圖指邊沒有方向的圖。

    ??條件隨機域(場)(conditionalrandom fields,簡稱 CRF,或CRFs),是一種判別式概率模型,是隨機場的一種。條件隨機場(CRF)由Lafferty等人于2001年提出,結合了最大熵模型隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。常用于標注或分析序列資料,如自然語言文字或是生物序列。如同馬爾可夫隨機場,條件隨機場為具有無向的圖模型,無向圖中的頂點代表隨機變量,頂點間的連線代表隨機變量間的相依關系,在條件隨機場中,隨機變量 Y 的分布為條件概率,給定的觀察值則為隨機變量 X。原則上,條件隨機場的圖模型布局是可以任意給定的,一般常用的布局是鏈結式的架構,鏈結式架構不論在訓練(training)、推論(inference)、或是解碼(decoding)上,都存在效率較高的算法可供演算。

    ??CRF被用于中文分詞和詞性標注等詞法分析工作,一般序列分類模型常常采用隱馬爾可夫模型(HMM),像基于類的中文分詞。但隱馬爾可夫模型中存在兩個假設:輸出獨立性假設和馬爾可夫性假設。其中,輸出獨立性假設要求序列數據嚴格相互獨立才能保證推導的正確性,而事實上大多數序列數據不能被表示成一系列獨立事件。而條件隨機場則使用一種概率圖模型,具有表達長距離依賴性和交疊性特征的能力,能夠較好地解決標注(分類)偏置等問題的優點,而且所有特征可以進行全局歸一化,能夠求得全局的最優解。

    CRF缺點: ??模型復雜,算法時間長。

    從例子說起——詞性標注問題

    ??在實際應用中,自然語言處理中的詞性標注(POS Tagging)就是非常適合CRF使用的地方。詞性標注的目標是給出一個句子中每個詞的詞性(名詞,動詞,形容詞等)。而這些詞的詞性往往和上下文的詞的詞性有關,因此,使用CRF來處理是很適合的,當然CRF不是唯一的選擇,也有很多其他的詞性標注方法。

    啥是詞性標注問題? ??非常簡單的,就是給一個句子中的每個單詞注明詞性。比如這句話:“Bob drank coffee at Starbucks”,注明每個單詞的詞性后是這樣的:“Bob (名詞) drank(動詞) coffee(名詞) at(介詞) Starbucks(名詞)”。

    下面,就用條件隨機場來解決這個問題。 ??以上面的話為例,有5個單詞,我們將:(名詞,動詞,名詞,介詞,名詞)作為一個標注序列,稱為l,可選的標注序列有很多種,比如l還可以是這樣:(名詞,動詞,動詞,介詞,名詞),我們要在這么多的可選標注序列中,挑選出一個最靠譜的作為我們對這句話的標注。

    怎么判斷一個標注序列靠譜不靠譜呢? ??就我們上面展示的兩個標注序列來說,第二個顯然不如第一個靠譜,因為它把第二、第三個單詞都標注成了動詞,動詞后面接動詞,這在一個句子中通常是說不通的。 ??假如我們給每一個標注序列打分,打分越高代表這個標注序列越靠譜,我們至少可以說,凡是標注中出現了動詞后面還是動詞的標注序列,要給它負分!! ??上面所說的動詞后面還是動詞就是一個特征函數,我們可以定義一個特征函數集合,用這個特征函數集合來為一個標注序列打分,并據此選出最靠譜的標注序列。也就是說,每一個特征函數都可以用來為一個標注序列評分,把集合中所有特征函數對同一個標注序列的評分綜合起來,就是這個標注序列最終的評分值。

    定義CRF中的特征函數

    現在,我們正式地定義一下什么是CRF中的特征函數,所謂特征函數,就是這樣的函數,它接受四個參數:

    句子s(就是我們要標注詞性的句子)i,用來表示句子s中第i個單詞l_i,表示要評分的標注序列給第i個單詞標注的詞性l_i-1,表示要評分的標注序列給第i-1個單詞標注的詞性

    它的輸出值是0或者1,0表示要評分的標注序列不符合這個特征,1表示要評分的標注序列符合這個特征。

    Note:這里,我們的特征函數僅僅依靠當前單詞的標簽和它前面的單詞的標簽對標注序列進行評判,這樣建立的CRF也叫作線性鏈CRF,這是CRF中的一種簡單情況。

    從特征函數到概率

    定義好一組特征函數后,我們要給每個特征函數f_j賦予一個權重λ_j。現在,只要有一個句子s,有一個標注序列l,我們就可以利用前面定義的特征函數集來對l評分。

    上式中有兩個求和,外面的求和用來求每一個特征函數f_j評分值的和,里面的求和用來求句子中每個位置的單詞的的特征值的和。

    對這個分數進行指數化和標準化,我們就可以得到標注序列l的概率值p(l|s),如下所示:

    幾個特征函數的例子

    前面我們已經舉過特征函數的例子,下面我們再看幾個具體的例子,幫助增強大家的感性認識。

    當l_i是“副詞”并且第i個單詞以“ly”結尾時,我們就讓f1 = 1,其他情況f1為0。不難想到,f1特征函數的權重λ1應當是正的。而且λ1越大,表示我們越傾向于采用那些把以“ly”結尾的單詞標注為“副詞”的標注序列

    如果i=1,l_i=動詞,并且句子s是以“?”結尾時,f2=1,其他情況f2=0。同樣,λ2應當是正的,并且λ2越大,表示我們越傾向于采用那些把問句的第一個單詞標注為“動詞”的標注序列。

    當l_i-1是介詞,l_i是名詞時,f3 = 1,其他情況f3=0。λ3也應當是正的,并且λ3越大,說明我們越認為介詞后面應當跟一個名詞。

    如果l_i和l_i-1都是介詞,那么f4等于1,其他情況f4=0。這里,我們應當可以想到λ4是負的,并且λ4的絕對值越大,表示我們越不認可介詞后面還是介詞的標注序列。

    好了,一個條件隨機場就這樣建立起來了,讓我們總結一下: 為了建一個條件隨機場,我們首先要定義一個特征函數集,每個特征函數都以整個句子s,當前位置i,位置i和i-1的標簽為輸入。然后為每一個特征函數賦予一個權重,然后針對每一個標注序列l,對所有的特征函數加權求和,必要的話,可以把求和的值轉化為一個概率值.

    參考: https://x-algo.cn/index.php/2016/02/27/crf-of-chinese-word-segmentation/ https://www.cnblogs.com/xingnie/p/12360714.html https://zhuanlan.zhihu.com/p/70067113

    總結

    以上是生活随笔為你收集整理的全连接条件随机场_CRF条件随机场的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 三上悠亚一区二区在线观看 | 欧美一区二区三区成人精品 | 锕锕锕锕锕锕锕锕 | 中国美女囗交视频 | 黄色同人网站 | 久久天天躁狠狠躁夜夜躁2014 | 欧美国产日韩视频 | 在线免费观看小视频 | 在线观看亚洲免费视频 | 黄色喷水视频 | 久久久久久亚洲中文字幕无码 | 极品美女高潮 | 在线观看va | 亚洲国产精品99久久久久久久久 | 欧美脚交视频 | 最新免费av| 91精品国产一区二区无码 | 爱情岛论坛成人av | 日本老妇高潮乱hd | 色涩涩| 日韩午夜一区 | 国产精品久久久久9999 | 成人高潮片免费视频 | 国产精品伦理一区 | 亚洲一区二区三区四区五区xx | 91丨九色丨丰满 | 四虎影视成人 | 久久精品网址 | 少妇又紧又色 | 国产精品一区二区三区线羞羞网站 | 久久99激情 | 国产一区二区视频在线播放 | 日日操夜夜操天天操 | 国产高清不卡视频 | 精品自拍第一页 | 色一涩| 久操色| 欧美成人免费高清视频 | 日本高清不卡在线观看 | 成人毛片观看 | 国产淫 | 色老汉视频| 日韩中文字幕免费视频 | 天堂va欧美va亚洲va老司机 | 国产精品一二区在线观看 | 在线观看亚洲欧美 | 97精品人妻麻豆一区二区 | 中文区中文字幕免费看 | 美女久久| 国产成人宗合 | 国产精品第12页 | 天堂在线资源网 | 男男gay羞辱feet贱奴vk | 亚洲一在线 | 男女网站在线观看 | 日本一区高清 | 天堂网8| 台湾佬成人中文网222vvv | 中文字幕免费观看 | 欧美精品xxxxx | 色呦呦精品 | 久久av无码精品人妻系列试探 | 国产精品日韩一区二区三区 | 激情五月深爱五月 | 成人免费高清视频 | 91精品视频观看 | 在线观看一二三区 | 91精品入口 | 日日免费视频 | 日本aⅴ在线观看 | 先锋影音av资源站 | 久久精品欧美视频 | 日本加勒比一区 | 97久久久久 | 日韩经典在线观看 | 亚洲深夜视频 | 久久激情网 | av图片在线| 99久久99久久精品国产片桃花 | 欧美精品韩国精品 | 国产又爽又黄游戏 | 欧洲黄视频 | 啪视频在线观看 | 亚洲4438 | 亚洲啊啊 | 欧美一区影院 | 在线观看va| 第一页在线| 国产精品美女自拍视频 | 男生操女生免费网站 | 人妻激情文学 | 黄色小视频在线播放 | 日韩av免费在线 | 色哟哟一区二区三区 | 国产成人8x视频一区二区 | 偷拍夫妻性生活 | 五月少妇 | av一区三区 | 国产午夜无码视频在线观看 |