自然语言处理笔记7-哈工大 关毅
目錄
文章目錄
- 目錄
- 前言
- 句法分析技術1
- 句法分析技術2
- 句法分析技術3
- 句法分析技術4
前言
碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。
句法分析技術1
基于規則+統計結合的句法分析
判定輸入的詞序列是否合法,短語結構樹,有向無環圖。
句子:{主『定語,中心』}{謂語『狀,謂{動賓【動,賓語(定語,中心詞)】,補語}』}
狀語修飾,核心動作。
提高語法分析結果,計算機的語法分析里面不明確。
詞性層級:兩種句法分析的區別因子進入短語結合規則。
句法分析和短語結合分析進入區別。
語法歧義示例。
漢語句法分析,句法分析細語,形式語法體系。
匹配模式方法,“正則文法”。
短語結構文法,信息處理系統。機器翻譯運用,留下此路不通的牌子。
科研有風險,不是一帆風順,需要有挑戰精神的人去做。
擴充轉移網絡,狀態轉移機,樹鄰接語法
句法分析技術2
基于合一運算的語法,復雜描述集的語法,合一運算實現該方法,依存語法,上下文顆粒度太大,短語限定在詞匯上,K+語法,依存文法,形式語法體系模式,正則匹配。
短語結構語法分析很多方法。
擴充轉移網絡
回顧:Chomsky文法體系
G=(N,∑,P,S)G=(N,\sum,P,S)G=(N,∑,P,S)是一個文法,
α?>β∈P\alpha->\beta\in Pα?>β∈P
0型文法:對α?>β不作任何限制\alpha->\beta 不作任何限制α?>β不作任何限制
I型文法:∣α∣≤∣β∣|\alpha|\leq|\beta|∣α∣≤∣β∣
II型文法:上下文無關文法,α∈N上下文無關文法,\alpha \in N上下文無關文法,α∈N
III型文法:正則文法。
一個字串的推導是一系列文化規則的應用。
起始符推導到最好。強范式:基于詞的語法。
格里巴克:形式語言自動化機。
一種語言LgL_gLg?是由某上下文無關文法推導出來的所有終結符號串的集合,其中的每個終結符串,稱為合乎文法G,否則,稱之為不合乎文法。上下文文法,擴充概率無關文法。
一個隨機上下文無關語法,PCFG的三個假設。
1)位置無關2)上下文無關3)祖先無關。
推出非總結串,隱碼模型,推出問題。
PCFG的三個基本問題。
一個語句W=WiWi?1Wi?2WnW=W_iW_{i-1}W_{i-2}W_nW=Wi?Wi?1?Wi?2?Wn?的P(W|G)也就是產生語句W的概率?
在語句W的句法結構有歧義的情況下,如何快速選擇最佳的語法分析(parse)?
如何從語料庫中訓練G的概率參數使得P(W|G)最大(類比之前的問題,評價,解碼,編碼問題)
節點間的遞推關系,葉節點到根節點的句法樹。
向內算法
句法分析技術3
隨機上下文無關文法
任何一個語句都可以視為一種語言模型。
一個句法樹中的結點詞句法樹開始推導,自頂向下,自下向上。
某一部推導,對應于幾個規則,開始推導,做出結果。
登上算法,嘗試去做,EM算法,優化前進,無指導學習算法,PCFG的優點。
可以對句法分析的歧義,結果進行概率排序。
提高文法的容錯能力。
詞對結構分析,上下文對結構分析,隨機上下文無關文法。
向前算法,節點值增加提前。
αij(A)=P(Wi,Wj∣A),i<j\alpha_{ij}(A)=P(W_i,W_j|A),i<jαij?(A)=P(Wi?,Wj?∣A),i<j
=∑B,C,∈RP(Wi,Wj,B,Wr+1..Wj,C∣A)=\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A)=B,C,∈R∑?P(Wi?,Wj?,B,Wr+1?..Wj?,C∣A)
αi,j=P(A?>Wi)i=j\alpha_{i,j}=P(A->W_i)i=jαi,j?=P(A?>Wi?)i=j
句法分析技術4
淺層句法分析,形式合規分析,結構分析就行。
部分分析,組塊分析。
例句:
這一切已經引起世界各國的普遍關注。
S-k,r,c,p.
淺層專項研究。
基于HMM的淺層分析技術,ACL會議。他識別的目標是非遞歸的NLP,淺層句法分析,隱碼是五元組,淺層分析狀態空間如何定義。輸出一對詞性標記,一個組塊開始。
照著看,任何階段都可以用任何一個模型,不同的是標記的內容。
級聯式有限狀態分析句法。
# 句法分析技術5
基于規則的方法,需要大量人力,不好遷移。
總結:
概率上下文無關文法,句法分析是目前語言處理技術瓶頸之一。發現問題比解決問題更重要。
句法分析是必由之路,ACL每年關注,語法分析。
強化學習技術:免疫機制分析合適嗎?
句法是形式,語義是內容。
完整合法性,沒有公認的內容。
句法的強制性和語義的決定性,句法系統和語義系統是兩個不同的系統,它們各自獨立而又相互依存,彼此的對應關系十分復雜,統計規則之后講應用。
總結
以上是生活随笔為你收集整理的自然语言处理笔记7-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android平板软件生态,雷军:做安卓
- 下一篇: 打造明星朋友圈!AI名片还能这样玩?