日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...

發(fā)布時間:2023/12/9 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

內(nèi)容綱要

參考書:《統(tǒng)計自然語言處理(第2版)》,《形式語言與自動機理論》,《統(tǒng)計自然語言基礎(chǔ)》,《自然語言處理綜論》 ,《概率圖模型:原理與技術(shù)》,《概率論與數(shù)理統(tǒng)計》,《統(tǒng)計學(xué)方法》,《中文自動分詞與標(biāo)注》

句法分析概述:

句法結(jié)構(gòu)分析:對輸入的單詞序列(一般為句子),判斷其構(gòu)成是否合乎給定的語法,并分析出合乎語法的句子的句法結(jié)構(gòu)。

句法分析的任務(wù):

判斷輸入的字符串是否屬于某種語言

消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義

分析輸入句子的內(nèi)部結(jié)構(gòu)

構(gòu)造句法分析器:

語法的形式化表示和詞條信息描述問題

分析算法的設(shè)計

句法結(jié)構(gòu)分析方法:

基于規(guī)則的句法結(jié)構(gòu)分析

基于統(tǒng)計的語法結(jié)構(gòu)分析

PCFG:基于概率的上下文無關(guān)文法

論文:《Probabilistic Context-Free Grammars (PCFGs)》

思想:(結(jié)合論文看,該論文是一個lecture note,很棒)

CFG:提出了四元文法,最左文法

基于CFG的句法分析模型滿足三個假設(shè)條件:位置不變性,上下文無關(guān)性,祖先無關(guān)性

符合喬姆斯基范式,左邊都為單個非終結(jié)符,右邊要么都是非終結(jié)符,要么只有終結(jié)符,

如:

但是不同的語法樹解析相同的句子,可能有不同意思。

有了語法樹可以定義概率

TG(S)表示具體解析樹,當(dāng)大于一表示有歧義,所以要用概率樹選最大的。

三大問題:1)已知產(chǎn)式概率,求語法樹概率。2)求所有語法樹中最大概率。3)不知道產(chǎn)式概率,求參數(shù)。這三個問題剛好對應(yīng)HMM的三大問題。

如果有corpus可以統(tǒng)計處概率則,方法是文法每個產(chǎn)式可以根據(jù)corpus統(tǒng)計出概率,然后生成樹的過程不斷把概率相乘,最后得到最終的樹的概率。難點在于如何遍歷所有產(chǎn)式,得到所有樹的概率。用dp解答,寫出遞推式子,每個樹是在子樹概率基礎(chǔ)上得到的。

如果沒有corpus,則用EM求解:

淺層句法分析:

完全句法分析是困難的任務(wù),目前還沒令人滿意的解決方法

樹庫成本昂貴

淺層句法分析:完全句法分析的簡化任務(wù)版,主要包括兩個子任務(wù),語塊識別與分析,語塊之間依附關(guān)系分析

語塊(chunk):句子中的結(jié)構(gòu)獨立,相對較簡單的部分。例如,名詞短語,動詞短語

BaseNP:

與命名實體區(qū)別:命名實體是詞典中查不出的,BaseNP可以是查得出的

識別方法:

基于CRF識別BaseNP

基于SVM識別BaseNP

混合方法

基于CRF識別BaseNP:

參考論文:轉(zhuǎn)化為標(biāo)注問題《Shallow Parsing with Conditional Random Fields》

說明:就是寫出標(biāo)記之間的狀態(tài)轉(zhuǎn)移,然后根據(jù)CRF寫出模型公式,求解參數(shù)

基于SVM識別BaseNP:

參考論文:

《Use of? Support Vector Learning for Chunk Identification》最后用的是線性SVM

《Fast Methods for Kernel-based Text Analysis》上文改進,用了核函數(shù)

思想:

說明:

Col0為詞序列,col1為詞性序列,tag為標(biāo)注序列,

以deficit為例,取前后詞,詞性,和tag,所有詞和詞性和tag都用word vector(0-1)表示,然后tag是類別,進行分類,訓(xùn)練出分類模型。注意特征集包含了前兩個tag

為了保證空間要求,對數(shù)據(jù)進行壓縮,比如(3,101,1791)表示三個詞的vector

混合方法:

參考論文:《A Hybrid Approach to Chinese Base Noun Phrase Chunking》

思路:結(jié)合SVM+CRF多種因素的結(jié)果

結(jié)果分析:

依存語法(了解,不細講):

依存語法:用詞不詞之間的依存關(guān)系來描述語言結(jié)構(gòu)的框架

L.Tesniere理論:一切結(jié)構(gòu)局句法現(xiàn)象可概括為關(guān)聯(lián),組合,轉(zhuǎn)位三大核心。句法關(guān)聯(lián)建立起詞不詞之間的從屬關(guān)系,這種從屬關(guān)系是由支配詞和從屬詞聯(lián)結(jié)而成。價的概念:一個動詞所能支配的行動元的個數(shù)。

參考論文:

《Non-projective Dependency Parsing using Spanning Tree Algorithms》

《Layer-Based Dependency Parsing》

語義分析(不細講,了解):一個詞多種意思,通過 分析技術(shù),確定它在上下文中的真實意思

篇章分析:自動文摘:摘錄,指代消解,銜接問題

指代消解:

論文:

《指代消解綜述》:對指代消解進行了綜述,其中有中文部分

《Coreference Resolution Current Trends and Future Directions》:綜述文章

《First-Order Probabilistic Models for Coreference Resolution》:從上面綜述文章中來的一篇

最后一篇思路:

說明:圖一邊表示之間關(guān)系的概率,公式為計算概率的公式

步驟:

1)corpus聚類,找到(bush, he)這樣的對

2)根據(jù)特征模板,選取特征,就是最后語料每個是啥樣

3)利用最大熵求解“人k”

4)得到P

5)得到圖

6)分區(qū)和聚類問題

7)改進:First-Order Logic Model

自動文摘:

Luhn在1958年的開創(chuàng)性工作

自勱文摘技術(shù)分類:單文檔摘要,多文檔摘要等

方法:

VSM方法

基于隱語義的方法

基于HMM的方法

VSM方法:

論文:《基于潛在語義分析的單文本自動摘要方法研究》里面提到了

基于潛在語義的方法

論文:《基于潛在語義索引的文本摘要方法》,《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》

思路:

基于HMM的方法:

參考論文:《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》

思路:

多文檔摘要:不成熟,不細講

問題:

怎樣找到感興趣的多篇文檔?

怎樣從多篇文檔里聯(lián)合抽取?

抽取出來的句子按怎樣的順序排列?

抽取出來的句子怎樣做到上下文“融合”?

參考論文:

《Centroid-based summarization of multiple documents》

《Sentence Fusion for Multidocument News Summarization》

總結(jié)

以上是生活随笔為你收集整理的pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。