日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论...

發布時間:2025/7/25 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

依存句法分析,法國語言學家L.Tesniere1959年提出。句法,句子規則,句子成分組織規則。依存句法,成分間依賴關系。依賴,沒有A,B存在錯誤。語義,句子含義。

依存句法強調介詞、助詞劃分作用,語義依存注重實詞間邏輯關系。依存句法隨字面詞語變化不同,語義依存不同字面詞語可同一意思,句法結構不同句子語義關系可相同。依存句法分析和語義分析結合,計算機理解句子含義,匹配到最合適回答,通過置信度匹配實現聊天回答。

依存句法分析,確定句式句法結構(短語結構)或句子詞匯依存關系。依存句法分析樹,子節點依存于父節點。依存投射樹,實線表示依存聯結關系,位置低成分依存位置高成分,虛線為投射線。依存關系五公理:1. 句子只有一個獨立成分。2. 其他成分直接依存某一成分。3. 任何成分都不能依存兩個或兩個以上成分。4. 如果A成分直接依存B成分,C成分在句子成分A和B之間,C或者直接依存B,或者直接依存A和B間某一成分。5. 中心成分左右兩面其他成分相互不發生關系。

LTP依存關系標記。主謂關系 SBV subject-verb,動賓關系 VOB 直接賓語,verb-object,間賓關系 IOB 間接賓語,indirect-object,前置賓語 FOB 前置賓語,fronting-object,兼語 DBL double,定中關系 ATT attribute,狀中結構 ADV adverbial,動補結構 CMP complement,并列關系 COO coordinate,介賓關系 POB preposition-object,左附加關系 LAD left adjunct,右附加關系 RAD right adjunct,獨立結構 IS independent structure,核心關系 HED head 。

依存關系計算,機器學習和人工標注,機器學習依賴人工標注,分詞詞性、依存樹庫、語義角色,機器學習分析新句子依存句法。

LTP云平臺。注冊用戶,每月免費20G流量。http://www.ltp-cloud.com/ 注冊賬號,登陸http://www.ltp-cloud.com/dashboard/ ,查看api_key、流量使用,文檔http://www.ltp-cloud.com/document 。curl -i "http://api.ltp-cloud.com/analysis/?api_key=ApiKey&text=我是中國人。&pattern=dp&format=plain" 。分詞(pattern=ws),詞性標注(pattern=pos),命名實體識別(pattern=ner),語義依存分析(pattern=sdp),語義角色標注(pattern=srl)。

自然語言、數學聯系是語言模型。數學模型,用數理邏輯方法和數學語言建構科學或工程模型。用數學方式解釋事實。數學建模,計算結果解釋實際問題,接受實際檢驗,建立數學模型全過程。語言模型,根據語言客觀事實進行語言抽象數學建模。用數學模型解釋自然語言事實。

業界認可有效語言模型,n元語法模型(n-gram model),馬爾可夫模型,話中下一詞出現和最近n個詞有關。n=1,最新詞只和自己有關,獨立,和前面詞沒關系,一元文法。n=2,最新詞和它前面詞有關,二元文法,一階馬爾科夫鏈。工程上n=3最多,n越大約束信息越多,n越小可靠性更高。自然語言處理研究兩大方向:基于規則、基于統計。n元語法模型基于統計。最大似然,和歷史最相似,用歷史出現頻率估計概率。

千變萬化自然語言導致0概率問題。有限語料庫難以窮舉語言現象,n元語法模型會出現某一句話出現概率為0。數據平滑技術,通過數學方式讓每一句話概率都大于0。特定領域特寫詞概率偏大問題。緩存剛剛出現過詞匯提高后面出現概率。單一語言模型弊端。不同語料庫差異,導致單一語言模型不準確,多種語言模型混合計算。或多種語言模型分別計算,最后選擇熵最大。神經網絡語言模型,特殊模型平滑方式,通過深度學習得到更正確概率。

語言模型應用,中文分詞、機器翻譯、拼寫糾錯、語音識別、音子轉換、自動文摘、問答系統、OCR。

上個世紀,中文自動分詞每句話都要到漢語詞表中查找,正向最大匹配法、逆向最大匹配法、雙向掃描法、助詞遍歷法。中文自動分詞最難兩個問題:1)歧義消除;2)未登陸詞識別。

N-最短路徑分詞法,一元語法模型,每個詞一元,獨立存在,出現概率基于大量語料統計得出,一句話基于詞表各種切詞結果都列出,字字組合有很多種,有多個候選結果,每個詞出現概率相乘,得到最終結果。基于n元語法模型分詞法,在N-最短路徑分詞法基礎上把一元模型擴展成n元模型,統計概率不是一個詞概率,是基于前面n個詞的條件概率。

由字構詞分詞方法。字在詞中有構詞位置,詞首、詞中、詞尾、單獨構詞。根據字不同構詞位置,設計特征,前一個詞、前兩個詞、前面詞長度、前面詞詞首、前面詞詞尾、前面詞詞尾加上當前字組成詞。基于大量語料庫,利用平均感知機分類器對特征打分,訓練權重系數,得出模型用來分詞,句子右邊多出一個字,用模型計算這些特征的加權得分,得分最高的是正確分詞方法。

n元語法模型方法,詞表里已有詞分詞。字構詞方法,未登陸詞的識別。

jieba中文分詞,基于前綴詞典詞圖掃描,生成句子中漢字所有可能成詞情況有向無環圖 (DAG),動態規劃查找最大概率路徑, 找出基于詞頻最大切分組合,對于未登錄詞,采用基于漢字成詞能力HMM模型,使用Viterbi 算法。結合詞表和由字構詞分詞。

ik分詞器,基于詞表最短路徑切詞。

ltp云平臺分詞,基于機器學習框架并部分結合詞表方法。

其他分詞工具判斷方法類似,網上對各種分詞工具好壞的判斷多數是功能上比較,個人建議通過原理來判斷,如果結合了基于詞表和由字構詞并且充分利用統計學習的方法,這樣的分詞工具才是最好的

圖論。圖,把孤立點用線連起來,任何點之間都有可能連著。區別于樹,樹有父子關系,圖沒有。圖表達事物之間關聯關系,轉化關系。表達關聯程度,表達轉化可能性大小。

概率論,投硬幣出正面概率是1/2,條件概率P(B|A),聯合概率P(A,B),貝葉斯公式 P(B|A)=P(A|B)P(B)/P(A)。

貝葉斯(Bayes),基于條件概率P(B|A)。馬爾可夫(Markov),鏈式結構或過程,前n個值決定當前這個值,當前這個值跟前n個值有關。熵(entropy),熱力學術語,表示物質系統混亂狀態。延伸數學,表達不確定性。延伸信息論,計算機網絡信息傳輸基礎理論,不確定性函數 f(p)=-logp,信息熵 H(p)=-∑plogp。信息論鼻祖香農(Shannon)。場(field),域,取值空間。隨機場,隨機變量賦值全體空間。

概率圖模型,用圖說明,用概率計算。有向圖模型和無向圖模型,圖里面的邊是否有方向。有方向表達推演關系,A前提下出現B,生成式模型。沒有方向表達“這樣就對了”關系,A和B同時存在就對了,判別式模型。生成式模型用聯合概率計算,判別式模型一用條件概率計算。生成式模型,n元語法模型、隱馬爾可夫模型、樸素貝葉斯模型。判別式模型,最大熵模型、支持向量機、條件隨機場、感知機模型。

貝葉斯網絡,條件概率,生成式模型,有向圖模型。如果x1為False情況下x6為True的概率,P(x6=T|x1=F)=P(x6=T,x1=F)/P(x1=F)。繼續推導,最終由每個節點概率數據計算求得。貝葉斯網絡模型通過樣本學習估計每個節點概率,達到預測各種問題結果。貝葉斯網絡在已知有限的、不完整的、不確定信息條件下學習推理,廣泛應用在故障診斷、維修決策、漢語自動分詞、詞義消歧等問題。

馬爾可夫模型和隱馬爾可夫模型。一個值跟前面n個值有關,條件概率,生成式模型,有向圖模型。馬爾可夫模型,關于時間t的狀態轉換過程,隨機有限狀態機,狀態序列概率通過計算形成該序列所有狀態之間轉移弧上概率乘積得出。訓練樣本得出每一個概率值,通過訓練模型根據前兩個預測下一個概率。隱馬爾可夫模型,其中某一階的信息未知,缺少信息較多,模型算法比較復雜。隱馬爾可夫模型廣泛應用在詞性標注、中文分詞。最初不知道怎么分詞,前面詞分出來,才知后面邊界在哪里,后面分詞后還要驗證前面分詞是否正確,前后有依賴關系,不確定中間狀態情況最適合用隱馬爾可夫模型來解釋。

最大熵模型,H(p)=-∑plogp。某信息條件B下,得出某種可能結果A最大概率,條件概率P(A|B)最大候選結果。最大熵不確定性最大,條件概率最大,求最大條件概率等同求最大熵,熵 H(p)=H(A|B)=-∑p(b)p(a|b)log(p(a|b))。使用訓練數據估計,p(a|b)通過訓練數據特征估計,比如特征fi(a,b),模型訓練∑λf(a,b)中λ參數過程。機器學習線性回歸了。所以最大熵模型,利用熵原理和熵公式,描述具有概率規律現實。

條件隨機場,場表示取值范圍,隨機場表示隨機變量取值范圍,每個隨機變量固定取值,條件指隨機變量取值由一定條件概率決定,條件來自觀察值。條件隨機場,無向圖模型,它給定觀察序列X時某個特定標記序列Y概率是指數函數exp(∑λt+∑μs),t是轉移函數,s是狀態函數。需要訓練λ和μ。條件隨機場應用在標注和切分有序數據,自然語言處理、生物信息學、機器視覺、網絡智能。

參考資料:

《Python 自然語言處理》

http://www.shareditor.com/blogshow?blogId=77

http://www.shareditor.com/blogshow?blogId=78

http://www.shareditor.com/blogshow?blogId=80

http://www.shareditor.com/blogshow?blogId=81

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi

轉載于:https://my.oschina.net/u/3482787/blog/1632519

總結

以上是生活随笔為你收集整理的学习笔记CB006:依存句法、LTP、n元语法模型、N-最短路径分词法、由字构词分词法、图论、概率论...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。