當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析...

發(fā)布時間：2023/12/9 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

內(nèi)容綱要

參考書：《統(tǒng)計自然語言處理(第2版)》，《形式語言與自動機理論》，《統(tǒng)計自然語言基礎(chǔ)》，《自然語言處理綜論》，《概率圖模型：原理與技術(shù)》，《概率論與數(shù)理統(tǒng)計》,《統(tǒng)計學(xué)方法》，《中文自動分詞與標(biāo)注》

句法分析概述：

句法結(jié)構(gòu)分析：對輸入的單詞序列(一般為句子)，判斷其構(gòu)成是否合乎給定的語法，并分析出合乎語法的句子的句法結(jié)構(gòu)。

句法分析的任務(wù)：

判斷輸入的字符串是否屬于某種語言

消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義

分析輸入句子的內(nèi)部結(jié)構(gòu)

構(gòu)造句法分析器：

語法的形式化表示和詞條信息描述問題

分析算法的設(shè)計

句法結(jié)構(gòu)分析方法：

基于規(guī)則的句法結(jié)構(gòu)分析

基于統(tǒng)計的語法結(jié)構(gòu)分析

PCFG：基于概率的上下文無關(guān)文法

論文：《Probabilistic Context-Free Grammars (PCFGs)》

思想：(結(jié)合論文看，該論文是一個lecture note，很棒)

CFG：提出了四元文法，最左文法

基于CFG的句法分析模型滿足三個假設(shè)條件：位置不變性，上下文無關(guān)性，祖先無關(guān)性

符合喬姆斯基范式，左邊都為單個非終結(jié)符，右邊要么都是非終結(jié)符，要么只有終結(jié)符，

如：

但是不同的語法樹解析相同的句子，可能有不同意思。

有了語法樹可以定義概率

TＧ(Ｓ)表示具體解析樹，當(dāng)大于一表示有歧義，所以要用概率樹選最大的。

三大問題：1)已知產(chǎn)式概率，求語法樹概率。2)求所有語法樹中最大概率。3)不知道產(chǎn)式概率，求參數(shù)。這三個問題剛好對應(yīng)HMM的三大問題。

如果有corpus可以統(tǒng)計處概率則，方法是文法每個產(chǎn)式可以根據(jù)corpus統(tǒng)計出概率，然后生成樹的過程不斷把概率相乘，最后得到最終的樹的概率。難點在于如何遍歷所有產(chǎn)式，得到所有樹的概率。用dp解答，寫出遞推式子，每個樹是在子樹概率基礎(chǔ)上得到的。

如果沒有corpus，則用EM求解：

淺層句法分析：

完全句法分析是困難的任務(wù)，目前還沒令人滿意的解決方法

樹庫成本昂貴

淺層句法分析：完全句法分析的簡化任務(wù)版，主要包括兩個子任務(wù)，語塊識別與分析，語塊之間依附關(guān)系分析

語塊(chunk)：句子中的結(jié)構(gòu)獨立，相對較簡單的部分。例如，名詞短語，動詞短語

BaseNP：

與命名實體區(qū)別：命名實體是詞典中查不出的，BaseNP可以是查得出的

識別方法：

基于CRF識別BaseNP

基于SVM識別BaseNP

混合方法

基于CRF識別BaseNP：

參考論文：轉(zhuǎn)化為標(biāo)注問題《Shallow Parsing with Conditional Random Fields》

說明：就是寫出標(biāo)記之間的狀態(tài)轉(zhuǎn)移，然后根據(jù)CRF寫出模型公式，求解參數(shù)

基于SVM識別BaseNP：

參考論文：

《Use of? Support Vector Learning for Chunk Identification》最后用的是線性SVM

《Fast Methods for Kernel-based Text Analysis》上文改進，用了核函數(shù)

思想：

說明：

Col0為詞序列，col1為詞性序列，tag為標(biāo)注序列，

以deficit為例，取前后詞，詞性，和tag，所有詞和詞性和tag都用word vector(0-1)表示，然后tag是類別，進行分類，訓(xùn)練出分類模型。注意特征集包含了前兩個tag

為了保證空間要求，對數(shù)據(jù)進行壓縮，比如(3，101，1791)表示三個詞的vector

混合方法：

參考論文：《A Hybrid Approach to Chinese Base Noun Phrase Chunking》

思路：結(jié)合SVM+CRF多種因素的結(jié)果

結(jié)果分析：

依存語法(了解，不細講)：

依存語法：用詞不詞之間的依存關(guān)系來描述語言結(jié)構(gòu)的框架

L.Tesniere理論：一切結(jié)構(gòu)局句法現(xiàn)象可概括為關(guān)聯(lián)，組合，轉(zhuǎn)位三大核心。句法關(guān)聯(lián)建立起詞不詞之間的從屬關(guān)系，這種從屬關(guān)系是由支配詞和從屬詞聯(lián)結(jié)而成。價的概念：一個動詞所能支配的行動元的個數(shù)。

參考論文：

《Non-projective Dependency Parsing using Spanning Tree Algorithms》

《Layer-Based Dependency Parsing》

語義分析(不細講，了解)：一個詞多種意思，通過分析技術(shù)，確定它在上下文中的真實意思

篇章分析：自動文摘：摘錄，指代消解，銜接問題

指代消解：

論文：

《指代消解綜述》：對指代消解進行了綜述，其中有中文部分

《Coreference Resolution Current Trends and Future Directions》：綜述文章

《First-Order Probabilistic Models for Coreference Resolution》：從上面綜述文章中來的一篇

最后一篇思路：

說明：圖一邊表示之間關(guān)系的概率，公式為計算概率的公式

步驟：

1)corpus聚類，找到(bush, he)這樣的對

2)根據(jù)特征模板，選取特征，就是最后語料每個是啥樣

3)利用最大熵求解“人k”

4)得到P

5)得到圖

6)分區(qū)和聚類問題

7)改進：First-Order Logic Model

自動文摘：

Luhn在1958年的開創(chuàng)性工作

自勱文摘技術(shù)分類：單文檔摘要，多文檔摘要等

方法：

VSM方法

基于隱語義的方法

基于HMM的方法

VSM方法：

論文：《基于潛在語義分析的單文本自動摘要方法研究》里面提到了

基于潛在語義的方法

論文：《基于潛在語義索引的文本摘要方法》，《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》

思路：

基于HMM的方法：

參考論文：《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》

思路：

多文檔摘要：不成熟，不細講

問題：

怎樣找到感興趣的多篇文檔？

怎樣從多篇文檔里聯(lián)合抽取？

抽取出來的句子按怎樣的順序排列？

抽取出來的句子怎樣做到上下文“融合”？

參考論文：

《Centroid-based summarization of multiple documents》

《Sentence Fusion for Multidocument News Summarization》

總結(jié)

以上是生活随笔為你收集整理的pcfg 自然语言处理_自然语言处理：原理简明教程09-句法分析，语义分析和篇章分析...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： c语言数组扩容,数组的扩容
下一篇：美国网站服务器有哪些，可以搭建什么网站？