《统计自然语言处理》读书笔记 一.基础知识及概念介绍
? ? ? ? 最近準(zhǔn)備學(xué)習(xí)自然語(yǔ)言處理相關(guān)的知識(shí),主要參考《統(tǒng)計(jì)自然語(yǔ)言處理·宗成慶》和《Natural Language Processing with Python》,推薦大家閱讀。第一篇主要介紹的是NLP的基礎(chǔ)知識(shí)和概念介紹,其實(shí)也是我關(guān)于NLP的讀書(shū)筆記吧,希望對(duì)大家有所幫助。
一. 概念介紹
? ? ? ??自然語(yǔ)言處理
? ? ? ??自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)技術(shù)的產(chǎn)生可追溯到20世紀(jì)50年代,它是一門(mén)集語(yǔ)言學(xué)、數(shù)學(xué)(代數(shù)、概率)、計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)等于一體的綜合性交叉學(xué)科。如何讓計(jì)算機(jī)正確、有效地理解和處理人類(lèi)語(yǔ)言,即“理解人所說(shuō)的話”是當(dāng)今具有巨大挑戰(zhàn)性的理論和技術(shù)問(wèn)題。近年來(lái)應(yīng)用包括文字識(shí)別、語(yǔ)音合成、網(wǎng)絡(luò)信息監(jiān)控、不良信息過(guò)濾預(yù)警、圖像識(shí)別、情感計(jì)算、理解技術(shù)、問(wèn)答系統(tǒng)。
? ? ? ? 中文信息處理
? ? ? ? 其中中文信息處理又是NLP重要的一個(gè)分支,目前國(guó)際上頗具影響力的技術(shù)評(píng)測(cè),包括機(jī)器翻譯評(píng)測(cè)、信息抽取評(píng)測(cè)、句法分析評(píng)測(cè)都與漢語(yǔ)密切相關(guān)。中文信息處理既有NLP共性的問(wèn)題,如生詞識(shí)別、歧義消解等,又有中文本身的問(wèn)題,如漢語(yǔ)自動(dòng)分詞、詞性定義規(guī)范問(wèn)題等。
? ? ? ??書(shū)籍介紹
? ? ? ?《統(tǒng)計(jì)自然語(yǔ)言處理》詳細(xì)介紹了國(guó)內(nèi)學(xué)者在漢語(yǔ)語(yǔ)料庫(kù)和詞匯知識(shí)構(gòu)建、自動(dòng)分詞(包括分詞方法和命名實(shí)體識(shí)別)與詞性標(biāo)注、句法分析及口語(yǔ)信息處理等最新研究成果,還包括國(guó)際計(jì)算語(yǔ)言大會(huì)(ACL,剛在北京召開(kāi))最佳論文的部分。
? ? ? ? ?本書(shū)第1至9章介紹統(tǒng)計(jì)自然語(yǔ)言處理的理論,包括預(yù)備知識(shí)、形式語(yǔ)言與自動(dòng)機(jī)、語(yǔ)料庫(kù)與詞匯知識(shí)庫(kù)、語(yǔ)言模型、隱馬爾可夫模型、漢語(yǔ)自動(dòng)分詞與詞性標(biāo)注、句法分析和語(yǔ)義消歧;第10至15章主要介紹統(tǒng)計(jì)自然語(yǔ)言處理的應(yīng)用,包括機(jī)器翻譯、語(yǔ)音翻譯、文本分類(lèi)、信息檢索與問(wèn)答系統(tǒng)、自動(dòng)文摘與信息抽取、口語(yǔ)信息處理與人機(jī)對(duì)話。
? ? ? ??關(guān)于“理解”
? ? ? ? 關(guān)于“理解”的標(biāo)準(zhǔn)總會(huì)想到英國(guó)數(shù)學(xué)家圖靈(Turing)在1950年提出的評(píng)測(cè)標(biāo)準(zhǔn):如果一個(gè)計(jì)算機(jī)系統(tǒng)的表現(xiàn)(act)、反應(yīng)(react)和相互作用(interact)都和有意識(shí)的個(gè)體一樣,那么,這個(gè)計(jì)算機(jī)系統(tǒng)就應(yīng)該被認(rèn)為是有意識(shí)的。
? ? ? ? 在自然語(yǔ)言處理領(lǐng)域中,人們常用圖靈實(shí)驗(yàn)來(lái)判斷計(jì)算機(jī)系統(tǒng)是否“理解”了某種自然語(yǔ)言的具體準(zhǔn)則,如:通過(guò)問(wèn)答系統(tǒng)(question-answering)系統(tǒng)測(cè)試計(jì)算機(jī)系統(tǒng)是否能夠正確地回答輸入文本中的有關(guān)問(wèn)題;通過(guò)文摘生成(summarizing)系統(tǒng)測(cè)試計(jì)算機(jī)系統(tǒng)是否有能力自動(dòng)生成文本摘要;通過(guò)機(jī)器翻譯(machine translation,MT)系統(tǒng)測(cè)試計(jì)算機(jī)系統(tǒng)是否具有把一種語(yǔ)言翻譯成另一種語(yǔ)言的能力等。
二. 自然語(yǔ)言處理研究?jī)?nèi)容和基本方法
? ? ? ??研究?jī)?nèi)容
? ? ? ? 自然語(yǔ)言處理研究?jī)?nèi)容十分廣泛,大致如下研究方向:
? ? ? ? 機(jī)器翻譯(machine translation):實(shí)現(xiàn)一種語(yǔ)言到另一種語(yǔ)言的自動(dòng)翻譯。
? ? ? ? 自動(dòng)文摘(automatic summarizing或automatic abstracting):將原文檔的主要內(nèi)容和含義自動(dòng)歸納、提煉出來(lái),形成摘要或縮寫(xiě)。
? ? ? ? 信息檢索(information retrieval):又稱情報(bào)檢索,就是利用計(jì)算機(jī)系統(tǒng)從海量文檔中找到符合用戶需求的相關(guān)文檔。面向多語(yǔ)言的IR叫跨語(yǔ)言信息檢索。
? ? ? ? 文檔分類(lèi)(document categorization):又稱文本分類(lèi)或信息分類(lèi),利用計(jì)算機(jī)系統(tǒng)對(duì)大量的文檔按照一定的分類(lèi)標(biāo)準(zhǔn)(如主題或內(nèi)容劃分)實(shí)現(xiàn)自動(dòng)分類(lèi)。
? ? ? ? 問(wèn)答系統(tǒng)(question-answering system):通過(guò)計(jì)算機(jī)系統(tǒng)對(duì)人提出的問(wèn)題的理解,利用自動(dòng)推理等手段,在有關(guān)知識(shí)資源中自動(dòng)求解答案并作出相應(yīng)的回應(yīng)。問(wèn)答技術(shù)有時(shí)與語(yǔ)音技術(shù)額多模態(tài)輸入、輸出技術(shù),以及人工交互技術(shù)等相結(jié)合,構(gòu)成人機(jī)對(duì)話系統(tǒng)(human-computer dialogue system)。
? ? ? ? 文字編輯和自動(dòng)校對(duì)(automatic proofreading):對(duì)文字拼寫(xiě)、用詞,甚至語(yǔ)法、文檔格式等進(jìn)行自動(dòng)檢查、校對(duì)和編排。
? ? ? ? 信息過(guò)濾(information filtering):通過(guò)計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過(guò)濾那些滿足特定條件的文檔信息。主要用于信息安全和防護(hù)等。
? ? ? ? 語(yǔ)言教學(xué)(language teaching):借助計(jì)算機(jī)輔助教學(xué)工具,進(jìn)行語(yǔ)言教學(xué)、操練和輔導(dǎo)等。
? ? ? ? 文字識(shí)別(optical character recognition,OCR):通過(guò)計(jì)算機(jī)系統(tǒng)對(duì)印刷體或手寫(xiě)體等文字進(jìn)行自動(dòng)識(shí)別,將其轉(zhuǎn)換成計(jì)算機(jī)可以處理的電子文本。相對(duì)而言,文字識(shí)別主要內(nèi)容屬于字符(漢字)圖像識(shí)別問(wèn)題,但對(duì)于高性能文字識(shí)別系統(tǒng),相關(guān)語(yǔ)言理解技術(shù)不可或缺。
? ? ? ? 語(yǔ)音識(shí)別(speech recognition):將輸入計(jì)算機(jī)的語(yǔ)音信號(hào)識(shí)別轉(zhuǎn)換成書(shū)面語(yǔ)表示。語(yǔ)音識(shí)別也稱自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR)。
? ? ? ? 文語(yǔ)轉(zhuǎn)換(text-to-speech conversion):將書(shū)面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語(yǔ)音表征,又稱語(yǔ)音合成(speech synthesis)。
? ? ? ? 說(shuō)話人識(shí)別/認(rèn)證/驗(yàn)證(speaker recognition identification verification):對(duì)一說(shuō)話人的言語(yǔ)樣本做聲學(xué)分析,依次判斷(確定或驗(yàn)證)說(shuō)話人的身份。
? ? ? ? 實(shí)際上,我們所能想到的涉及人類(lèi)語(yǔ)言的任何研究幾乎都隱含著計(jì)算語(yǔ)言學(xué)的問(wèn)題,這里不再一一列舉。
? ? ? ? 面臨困難
? ? ? ? 自然語(yǔ)言處理涉及形態(tài)學(xué)、語(yǔ)法學(xué)、語(yǔ)義學(xué)和語(yǔ)用學(xué)等幾個(gè)層面的問(wèn)題,其最終應(yīng)用目標(biāo)包括機(jī)器翻譯、信息檢索、問(wèn)答系統(tǒng)等廣泛應(yīng)用領(lǐng)域。其需要面臨的關(guān)鍵問(wèn)題就是——歧義消解(disambiguation)問(wèn)題和未知語(yǔ)言現(xiàn)象問(wèn)題。
? ? ? ? 自然語(yǔ)言中大量存在著歧義現(xiàn)象,無(wú)論是詞法層次、語(yǔ)法層次,無(wú)論哪類(lèi)語(yǔ)言單位,歧義始終困擾著人們。
? ?eg1 Put the block in the box on the table.
? ?其中"on the table"即可修飾box,也可以限定block。于是可以得到兩種不同的句法結(jié)構(gòu):
? ?a.Put the block [in the box on the table].
? ?b.Put [the block in the box] on the table.
? ?在這個(gè)句子中再增加一個(gè)介詞短語(yǔ)"in the kitchen"可以得到5中可能的分析結(jié)構(gòu),實(shí)際上,這種歧義結(jié)構(gòu)分析的結(jié)果數(shù)量隨著介詞短語(yǔ)數(shù)目的增加呈指數(shù)上升的。
? ?eg2 關(guān)于魯迅的著作.
? ?可以理解為"關(guān)于[魯迅/的/著作]",也可以理解為"[關(guān)于/魯迅]的著作"。漢語(yǔ)中存在很多歧義,我們說(shuō)“今天中午吃食堂”絕不意味著把食堂吃下去;我們夸獎(jiǎng)一個(gè)人說(shuō)“這個(gè)人真牛”并不是說(shuō)這個(gè)人是真正的牛。
? ?eg3 知識(shí)圖譜中也需要解決的歧義現(xiàn)象.
? ? ? ? 另一個(gè)是未知詞匯、未知結(jié)構(gòu)等各種意想不到的情況,而且每一種語(yǔ)言又隨著社會(huì)發(fā)展而動(dòng)態(tài)變化著,新的詞匯、詞義、句子結(jié)構(gòu)都在不斷出現(xiàn)。尤其是在口語(yǔ)對(duì)話或計(jì)算機(jī)網(wǎng)絡(luò)對(duì)話(MSN、QQ、微信)中,各種稀奇古怪的網(wǎng)絡(luò)詞語(yǔ)和結(jié)構(gòu)更是司空見(jiàn)慣。
? ? ? ? 因此自然語(yǔ)言處理系統(tǒng)必須具有較好的未知語(yǔ)言現(xiàn)象的處理能力,對(duì)各種可能輸入形式的容錯(cuò)能力(系統(tǒng)的魯棒性)。當(dāng)然還有很多其他問(wèn)題,比如如何處理不同語(yǔ)言的差異、如何提取文本特征、資源匱乏、覆蓋率低、知識(shí)表示困難等。
? ? ? ? 基本方法
? ? ? ? 歲月不饒人,將近三十年光陰匆匆地流逝,當(dāng)年我還是風(fēng)華正茂的青年人,而今,已經(jīng)變成了白發(fā)蒼蒼的老人了,我為這個(gè)事業(yè)坎坷地奮斗了大半生時(shí)間,其間甘苦難以言表。三十年來(lái),不論是處于順境還是逆境,我對(duì)于IMAG和GETA始終懷著難分難解的深厚感情,這種感情當(dāng)然主要是對(duì)于我們共同的自然語(yǔ)言處理事業(yè)的感情。——馮志偉
? ? ? ?還是推薦大家閱讀這本很經(jīng)典的NLP書(shū)籍,希望文章對(duì)大家有所幫助,至少有個(gè)簡(jiǎn)單的了解~后面可能還會(huì)寫(xiě)幾篇自己感興趣的書(shū)籍讀后感。看到上面這段話,挺感動(dòng)的,希望自己也能夠堅(jiān)持心中的理想,十年如一日的堅(jiān)持寫(xiě)博客和教書(shū)生涯吧!^_^
? ? ? (By:Eastmount 2016-08-04 晚上8點(diǎn) ??http://blog.csdn.net/eastmount/)
總結(jié)
以上是生活随笔為你收集整理的《统计自然语言处理》读书笔记 一.基础知识及概念介绍的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [数据库] Oracle使用CASE判断
- 下一篇: [网站搭建] 阿里云虚拟主机搭建及FTP