pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...
內(nèi)容綱要
參考書:《統(tǒng)計自然語言處理(第2版)》,《形式語言與自動機理論》,《統(tǒng)計自然語言基礎(chǔ)》,《自然語言處理綜論》 ,《概率圖模型:原理與技術(shù)》,《概率論與數(shù)理統(tǒng)計》,《統(tǒng)計學(xué)方法》,《中文自動分詞與標(biāo)注》
句法分析概述:
句法結(jié)構(gòu)分析:對輸入的單詞序列(一般為句子),判斷其構(gòu)成是否合乎給定的語法,并分析出合乎語法的句子的句法結(jié)構(gòu)。
句法分析的任務(wù):
判斷輸入的字符串是否屬于某種語言
消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義
分析輸入句子的內(nèi)部結(jié)構(gòu)
構(gòu)造句法分析器:
語法的形式化表示和詞條信息描述問題
分析算法的設(shè)計
句法結(jié)構(gòu)分析方法:
基于規(guī)則的句法結(jié)構(gòu)分析
基于統(tǒng)計的語法結(jié)構(gòu)分析
PCFG:基于概率的上下文無關(guān)文法
論文:《Probabilistic Context-Free Grammars (PCFGs)》
思想:(結(jié)合論文看,該論文是一個lecture note,很棒)
CFG:提出了四元文法,最左文法
基于CFG的句法分析模型滿足三個假設(shè)條件:位置不變性,上下文無關(guān)性,祖先無關(guān)性
符合喬姆斯基范式,左邊都為單個非終結(jié)符,右邊要么都是非終結(jié)符,要么只有終結(jié)符,
如:
但是不同的語法樹解析相同的句子,可能有不同意思。
有了語法樹可以定義概率
TG(S)表示具體解析樹,當(dāng)大于一表示有歧義,所以要用概率樹選最大的。
三大問題:1)已知產(chǎn)式概率,求語法樹概率。2)求所有語法樹中最大概率。3)不知道產(chǎn)式概率,求參數(shù)。這三個問題剛好對應(yīng)HMM的三大問題。
如果有corpus可以統(tǒng)計處概率則,方法是文法每個產(chǎn)式可以根據(jù)corpus統(tǒng)計出概率,然后生成樹的過程不斷把概率相乘,最后得到最終的樹的概率。難點在于如何遍歷所有產(chǎn)式,得到所有樹的概率。用dp解答,寫出遞推式子,每個樹是在子樹概率基礎(chǔ)上得到的。
如果沒有corpus,則用EM求解:
淺層句法分析:
完全句法分析是困難的任務(wù),目前還沒令人滿意的解決方法
樹庫成本昂貴
淺層句法分析:完全句法分析的簡化任務(wù)版,主要包括兩個子任務(wù),語塊識別與分析,語塊之間依附關(guān)系分析
語塊(chunk):句子中的結(jié)構(gòu)獨立,相對較簡單的部分。例如,名詞短語,動詞短語
BaseNP:
與命名實體區(qū)別:命名實體是詞典中查不出的,BaseNP可以是查得出的
識別方法:
基于CRF識別BaseNP
基于SVM識別BaseNP
混合方法
基于CRF識別BaseNP:
參考論文:轉(zhuǎn)化為標(biāo)注問題《Shallow Parsing with Conditional Random Fields》
說明:就是寫出標(biāo)記之間的狀態(tài)轉(zhuǎn)移,然后根據(jù)CRF寫出模型公式,求解參數(shù)
基于SVM識別BaseNP:
參考論文:
《Use of? Support Vector Learning for Chunk Identification》最后用的是線性SVM
《Fast Methods for Kernel-based Text Analysis》上文改進,用了核函數(shù)
思想:
說明:
Col0為詞序列,col1為詞性序列,tag為標(biāo)注序列,
以deficit為例,取前后詞,詞性,和tag,所有詞和詞性和tag都用word vector(0-1)表示,然后tag是類別,進行分類,訓(xùn)練出分類模型。注意特征集包含了前兩個tag
為了保證空間要求,對數(shù)據(jù)進行壓縮,比如(3,101,1791)表示三個詞的vector
混合方法:
參考論文:《A Hybrid Approach to Chinese Base Noun Phrase Chunking》
思路:結(jié)合SVM+CRF多種因素的結(jié)果
結(jié)果分析:
依存語法(了解,不細講):
依存語法:用詞不詞之間的依存關(guān)系來描述語言結(jié)構(gòu)的框架
L.Tesniere理論:一切結(jié)構(gòu)局句法現(xiàn)象可概括為關(guān)聯(lián),組合,轉(zhuǎn)位三大核心。句法關(guān)聯(lián)建立起詞不詞之間的從屬關(guān)系,這種從屬關(guān)系是由支配詞和從屬詞聯(lián)結(jié)而成。價的概念:一個動詞所能支配的行動元的個數(shù)。
參考論文:
《Non-projective Dependency Parsing using Spanning Tree Algorithms》
《Layer-Based Dependency Parsing》
語義分析(不細講,了解):一個詞多種意思,通過 分析技術(shù),確定它在上下文中的真實意思
篇章分析:自動文摘:摘錄,指代消解,銜接問題
指代消解:
論文:
《指代消解綜述》:對指代消解進行了綜述,其中有中文部分
《Coreference Resolution Current Trends and Future Directions》:綜述文章
《First-Order Probabilistic Models for Coreference Resolution》:從上面綜述文章中來的一篇
最后一篇思路:
說明:圖一邊表示之間關(guān)系的概率,公式為計算概率的公式
步驟:
1)corpus聚類,找到(bush, he)這樣的對
2)根據(jù)特征模板,選取特征,就是最后語料每個是啥樣
3)利用最大熵求解“人k”
4)得到P
5)得到圖
6)分區(qū)和聚類問題
7)改進:First-Order Logic Model
自動文摘:
Luhn在1958年的開創(chuàng)性工作
自勱文摘技術(shù)分類:單文檔摘要,多文檔摘要等
方法:
VSM方法
基于隱語義的方法
基于HMM的方法
VSM方法:
論文:《基于潛在語義分析的單文本自動摘要方法研究》里面提到了
基于潛在語義的方法
論文:《基于潛在語義索引的文本摘要方法》,《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》
思路:
基于HMM的方法:
參考論文:《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》
思路:
多文檔摘要:不成熟,不細講
問題:
怎樣找到感興趣的多篇文檔?
怎樣從多篇文檔里聯(lián)合抽取?
抽取出來的句子按怎樣的順序排列?
抽取出來的句子怎樣做到上下文“融合”?
參考論文:
《Centroid-based summarization of multiple documents》
《Sentence Fusion for Multidocument News Summarization》
總結(jié)
以上是生活随笔為你收集整理的pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言 数组扩容,数组的扩容
- 下一篇: 美国网站服务器有哪些,可以搭建什么网站?