當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理中的模式（模式1.概率化模式）

發(fā)布時間：2024/2/28 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理中的模式（模式1.概率化模式）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??????????????
/* 版權(quán)聲明：可以任意轉(zhuǎn)載，轉(zhuǎn)載時請務(wù)必標明文章原始出處和作者信息 .*/

???????????????????? 自然語言處理中的模式（模式1.概率化模式）

??????????????????????????????? CopyMiddle: 張俊林
??????????????????????????????? TimeStamp:2010 年 8 月? ?

????? 這個世界是確定的嗎？剛開始人們認為是的，這其實反映了人類對于認識世界和改造世界一種過于樂觀的態(tài)度。后來逐漸認識到不確定的世界才是一個更加真實的世界，我們生活在一個概率無處不在的現(xiàn)實里，而且這種不確定的世界也更難把握和改造，反映了人們對世界的認識更加符合實際了。
???? 不確定性是絕大多數(shù)學(xué)科的發(fā)展方向，即由確定性向不確定性發(fā)展；這反映了人們對世界的一種更加深入的認識，物理學(xué)本身也符合這個發(fā)展趨勢，從牛頓的機械世界觀到量子物理的測不準原理，基本給人們展示了這個世界是一個可能性的世界，而非確定的世界。
???? 我個人認為學(xué)科發(fā)展由定性分析到定量分析代表了其是否科學(xué)化，而由完全確定性的定量到不確定性的定量則是這個學(xué)科是否進入成熟階段的標準之一。
???? 對于自然語言處理來說，其歷史也算久遠，從其宏觀研究思路來說，基本經(jīng)歷了兩個大的階段，即最初的規(guī)則化方法到現(xiàn)在已經(jīng)成為主流的統(tǒng)計方法為主。而這個大的轉(zhuǎn)向和物理學(xué)的發(fā)展路徑是非常相像的。仔細思考的話，其實從上個世紀80年代開始流行的這種研究模式的大轉(zhuǎn)向是有其現(xiàn)實支撐的，即計算機存儲和計算資源的快速增長，可以看出其和PC的出現(xiàn)和流行的時機是相當吻合的。這種現(xiàn)實計算資源的快速普及和增長為統(tǒng)計方法的可行性鋪平了道路。
????? 而很明顯的一個道理就是：一個研究領(lǐng)域容易出大師的時機有兩種，一種是在學(xué)科的誕生期，因為還是一片荒地，要建立一座富麗堂皇的大廈，需要有人把地基打扎實。此時很容易出現(xiàn)奠基型的大師。另外一個就是研究模式大轉(zhuǎn)型期，因為此時等于是把原先蓋好的房子拆了重建，所以需要新的建筑架構(gòu)師。這兩個時期是容易出大師的絕好時機。
???? 還是拿物理做例子，現(xiàn)代物理從伽利略，牛頓奠定基石，到相對論的愛因斯坦，量子力學(xué)的海森堡，波爾，狄拉克等等，可以看出這個道理。到了近現(xiàn)代，大師不再，是研究人員能力問題嗎？我覺得不是，每個時代才智杰出之士從人群比例來說應(yīng)該是差不多的，那為何才智相當?shù)谴髱熃^跡了？因為這個學(xué)科的大廈奠基完成了，地面上的框架也基本完成了。當然依然存在把這個框架推倒重來的機會，但是這里有個時機的問題，就比如上面說的統(tǒng)計方法的流行，如果離開PC的大規(guī)模流行這個物質(zhì)基礎(chǔ)是很難做到的。所以說，研究人員除了才智和勤奮外，自身不可控的領(lǐng)域切入時機和大環(huán)境對于決定你在領(lǐng)域中的地位也是非常重要的。
??????? 回到自然語言處理領(lǐng)域，因為這個領(lǐng)域相對不是那么主流，所以領(lǐng)域大師也不是那么為人所熟知。我們就以計算語言學(xué)會終生成就獎的獲得者來看一下（http://aclweb.org/aclwiki/index.php?title=ACL_Lifetime_Achievement_Award_Recipients）
??????? 從這些獲獎大師的情況看，基本上都是屬于計算語言學(xué)這個領(lǐng)域的奠基人，而且年齡應(yīng)該都在60以上了，基本貢獻領(lǐng)域在語法，語義，形式語言學(xué)，機器翻譯，信息檢索理論。只有今年得獎的Jelinek屬于對于研究的概率轉(zhuǎn)型期轉(zhuǎn)向做出巨大貢獻的大師，其他基本屬于領(lǐng)域奠基人。可以預(yù)期，今后的得獎?wù)咧懈怕兽D(zhuǎn)型期大師比例會越來越高。但是另外一個很明顯的事實是:對于目前40歲以下的自然語言處理領(lǐng)域研究人員來說，指望靠統(tǒng)計方法成為領(lǐng)域大師基本上已經(jīng)沒有太大可能了。統(tǒng)計方法轉(zhuǎn)型基本成熟，這個大廈的框架已經(jīng)搭好了。想要成為領(lǐng)域大師，你得考慮推倒重建，但是這個時機是否成熟，實在不好判斷，因為一個領(lǐng)域越成熟，推倒重建的可能性也就越小。當然，距離機器真正理解人的語言來說（我相信會有這么一天的），路還是太長，在達到這一點前必然還是會出現(xiàn)相當多的大師級人物，這個是個時機問題。

?????? 上面扯得有點跑題了，我們再回到自然語言處理中的概率化轉(zhuǎn)型上來。研究模式的轉(zhuǎn)換必然有其內(nèi)在原因，自然是新的研究模式能夠解決老的研究模式不能解決的很多問題。自然語言處理中的概率化轉(zhuǎn)型相對規(guī)則方法有不少優(yōu)勢，當然自身缺點也不少。說來話長，不展開說了，這里介紹一個比較直觀的優(yōu)點。
? ?
????? 在自然語言處理中，歧義是非常容易出現(xiàn)的問題，無論是在分詞，句法，語義各個層面都會面臨歧義的問題，所謂歧義代表了對于一個輸入有若干種輸出，那么此時選擇哪個作為正確輸出就成為了一個問題。概率的引入為此提供了一個直觀的解決方案，即選擇概率值最大的作為正確的結(jié)果。從下面例子可以看出這點來。

????? 最直觀的說明自然語言處理研究中的概率化傾向的可以以句法分析中的PCFG的發(fā)展過程為例子。
案例一：從CFG到PCFG
????? 句法分析的任務(wù)目標很清楚，即給定一個自然語言句子，要確定句子中的單詞之間的相互關(guān)系是如何的。一般的做法是將一個句子通過一定的算法映射成一顆語法樹，通過語法樹即可判斷句子構(gòu)成元素之間的關(guān)系是怎樣的。
???? 比如：句子 John called Mary from Denver.? 對應(yīng)的句法分析樹為：
???? ????????????????????

???? CFG是非常經(jīng)典的語法分析工具，基本思路為定義一組句法規(guī)則，根據(jù)句法規(guī)則來將句子逐步解析為一顆句法樹。
???? 比如上面的例子，即可以從下述句法規(guī)則逐步構(gòu)建成句法樹。
??? S -> NP VP
??? VP -> V NP
??? NP -> NP PP
??? VP -> VP PP
??? PP -> P NP
??? NP -> John | Mary | Denver
??? V -> called
??? P -> from

???? 可以看出來，CFG是非概率化的分析模型，對于句法分析來說，可能存在歧義句法樹，即給定一個句子，可以構(gòu)造若干個句法樹，這些句法樹都是符合條件的。此時，一個很自然的想法就是加入概率化因素，這樣即使有若干個句法樹，可以根據(jù)句法樹的概率來進行選擇，優(yōu)先選擇概率大的作為分析結(jié)果。
???? 具體把CFG改造為PCFG思路也非常簡單直接，即給CFG的每條句法規(guī)則賦予一個概率，這個概率代表了這條規(guī)則出現(xiàn)的可能性大小。比如以下的經(jīng)過改造的句法規(guī)則集合
?? ?

???? 對于左端非終結(jié)符動詞短語VP來說，有兩條句法規(guī)則VP —> V NP 和 VP—>VP PP,因為VP —> V NP更常見，所以經(jīng)過統(tǒng)計賦值0.7,另外一條賦值1-0.7=0.3，即同一個左端非終結(jié)符的語法規(guī)則總的概率值為1。
???? 有了上面的概率信息，那么就很容易解決CFG不能解決的問題了，即對于所有可能的句法分析樹，計算其整體概率，選擇概率最大的作為分析結(jié)果。比如下面例子：
???? 對于句子：Astronomers saw stars with ears.? 明顯是有附著歧義的，可以有兩個合法的句法分析樹：

????????
?
???? 根據(jù)計算，可知T1會作為句法分析的結(jié)果。

?? 案例二：中文分詞中概率信息的引入；
??????? 中文分詞中歧義消除，未登錄詞識別，新詞識別是其主要面臨的問題。最初的中文分詞思路很簡單，就是直接查詞典，然后按照正向或者反向最大匹配來對字符串進行切割。為了解決歧義問題，一個最直接的想法就是把單詞概率信息引入，其基本思路和上面介紹的從DFG到PCFG的發(fā)展是類似的。
???? 比如，要分詞的歧義句子為：化妝品和服裝。
???? 其可能的分詞結(jié)果有兩個：
??????? 化妝品?? 和服? 裝
??????? 化妝品?? 和??? 服裝
???? 那么應(yīng)該輸出哪個呢？如果加入概率信息明顯有助于解決這個問題，假設(shè)我們已經(jīng)知道每個單詞在一定的訓(xùn)練預(yù)料集合里面出現(xiàn)的概率大小，那么計算結(jié)果中概率值大的那個作為輸出結(jié)果即可。

???? 以上兩個例子引入了概率來解決歧義問題，其基本思想非常直觀，即我們選擇最常見的組合作為正確結(jié)果，很明顯這個思路不能根本解決問題，但是能解決很大一部分問題，這也正是概率的作用和限制所在。

???? 上面舉了兩個相對細的例子，其實作為一個研究范式的轉(zhuǎn)換，很多子領(lǐng)域都可以認為屬于這個模式。從概率化模式這個研究模式來說，因為這個轉(zhuǎn)型已經(jīng)做了將近30年的工作，所以基本NLP的所有子領(lǐng)域都差不多已經(jīng)做到這點。利用這個模式進行研究創(chuàng)新機會應(yīng)該說已經(jīng)不太多了，除了語義，語用領(lǐng)域可能不太成熟，其它子領(lǐng)域已經(jīng)比較成熟了。雖說應(yīng)用這個研究模式實戰(zhàn)意義已經(jīng)不大，但是作為一個領(lǐng)域中的目前主流研究思路，把握其思想精髓對于加深這個領(lǐng)域的整體理解還是有重要意義的。

總結(jié)

以上是生活随笔為你收集整理的自然语言处理中的模式（模式1.概率化模式）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：自然语言处理中的模式（模式0:模式无处不
下一篇：大话SALSA算法