《自然语言处理简明教程》读书笔记:前言
前言
自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP),就是以電子計(jì)算機(jī)為工具,對(duì)人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)。這項(xiàng)技術(shù)現(xiàn)在已經(jīng)形成一門專門的邊緣性交叉性學(xué)科,它涉及語言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué),橫跨文科、理科和工科三大知識(shí)領(lǐng)域。自然語言處理的目的在于建立各種自然語言處理系統(tǒng),如機(jī)器翻譯系統(tǒng)、自然語言理解系統(tǒng)、信息自動(dòng)檢索系統(tǒng)、信息自動(dòng)抽取系統(tǒng)、文本信息挖掘系統(tǒng)、術(shù)語數(shù)據(jù)庫(kù)系統(tǒng)、計(jì)算機(jī)輔助教學(xué)系統(tǒng)、語音自動(dòng)識(shí)別系統(tǒng)、語音自動(dòng)合成系統(tǒng)、文字自動(dòng)識(shí)別系統(tǒng)等。
自然語言處理是語言文字應(yīng)用的一個(gè)新課題,從語言學(xué)的觀點(diǎn)來看,我們可以把它作為應(yīng)用語言學(xué)的一個(gè)分支。
自然語言處理又是人工智能的一個(gè)主要內(nèi)容,它是電子計(jì)算機(jī)模擬人類智能的一個(gè)重要方面。智能化的電子計(jì)算機(jī)和智能化的互聯(lián)網(wǎng)已經(jīng)不是虛無縹緲的幻想,而是指日可待的現(xiàn)實(shí)。它同人類歷史上語言的出現(xiàn)、文字的創(chuàng)造、造紙技術(shù)的發(fā)明以及印刷技術(shù)的發(fā)明一樣,將成為人類文明史上的又一件大事。
自然語言是人類區(qū)別于其他動(dòng)物的重要標(biāo)志之一。人借助于自然語言交流思想、互相了解;人和借助自然語言進(jìn)行思維活動(dòng),認(rèn)識(shí)事物的本質(zhì)和規(guī)律,創(chuàng)造了人類的物質(zhì)文明和精神文明。
自然語言是人腦的高級(jí)功能之一,它是人類特有的一種最重要的智能,智能化電子計(jì)算機(jī)和智能化互聯(lián)網(wǎng)的研究離不開自然語言處理,自然語言處理的研究水平,在智能化計(jì)算機(jī)和智能化互聯(lián)網(wǎng)的研制中,起著舉足輕重的作用。
在計(jì)算機(jī)軟件中,早已設(shè)計(jì)了許多人工語言,這些人工語言與自然語言一樣,都遵循著形式語言的規(guī)律和法則。自然語言與人工語言之間,在形式描述方面,確實(shí)存在著某些共同的性質(zhì)。
但是,自然語言畢竟是人類歷史長(zhǎng)期發(fā)展而約定俗稱的產(chǎn)物,它帶著幾千年人類歷史的痕跡,比人工語言要復(fù)雜得多,因而用計(jì)算機(jī)處理起來也就困難得多。
自然語言起碼在下面四個(gè)方面與人工語言大相徑庭:
(1)自然語言中充滿著歧義,而人工語言中的歧義則是可以控制的;
(2)自然語言的結(jié)構(gòu)復(fù)雜多樣,而人工語言的結(jié)構(gòu)則相對(duì)簡(jiǎn)單;
(3)自然語言的語義表達(dá)千變?nèi)f化,迄今還沒有一種簡(jiǎn)單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義;
(4)自然語言的結(jié)構(gòu)和語義間有著千絲萬縷的、錯(cuò)綜復(fù)雜的聯(lián)系,一般不存在一一對(duì)應(yīng)的同構(gòu)關(guān)系,而人工語言則常常可以把結(jié)構(gòu)和語義分別進(jìn)行處理,人工語言的結(jié)構(gòu)和語義之間有著整齊的意義對(duì)應(yīng)的同構(gòu)關(guān)系。
自然語言的這些獨(dú)特性質(zhì),使得自然語言處理成為人工智能領(lǐng)域的一大難題。
當(dāng)前(這本書是2010年出版的)自然語言處理的發(fā)展表現(xiàn)在下面五個(gè)方面:
第一,基于句法-語義規(guī)則的理性主義方法受到質(zhì)疑,隨著語料庫(kù)建設(shè)和語料庫(kù)語言學(xué)的崛起,大規(guī)模真實(shí)文本的處理稱為自然語言處理的主要戰(zhàn)略目標(biāo),概率和數(shù)據(jù)驅(qū)動(dòng)的方法幾乎成為了自然語言處理的標(biāo)準(zhǔn)方法。
基于規(guī)則的理性主義方法的哲學(xué)基礎(chǔ)是邏輯實(shí)證主義,即智能的基本單位是符號(hào),認(rèn)知過程就是在符號(hào)的表征下進(jìn)行符號(hào)運(yùn)算,因此,思維就是符號(hào)運(yùn)算。
賽爾在他的論文《心智、大腦與程序》中,提出了所謂“中文屋子”的質(zhì)疑,他的批評(píng)使基于規(guī)則的理性主義的觀點(diǎn)受到了普遍的懷疑。
理性主義方法的另一個(gè)弱點(diǎn)是在實(shí)踐方面。自然語言處理的理性主義者把自己的目的局限于某個(gè)十分狹窄的專業(yè)領(lǐng)域之中,他們采用的主流技術(shù)是基于規(guī)則的句法-語義分析,盡管這些應(yīng)用系統(tǒng)在某些受限的“子語言”中也曾經(jīng)獲得一定程度的成功,但是,要想進(jìn)一步擴(kuò)大這些系統(tǒng)的覆蓋面,用它們來處理大規(guī)模的真實(shí)文本,仍然有很大的困難。
當(dāng)前語料庫(kù)的建設(shè)和語料庫(kù)語言學(xué)的崛起,正是自然語言處理戰(zhàn)略目標(biāo)轉(zhuǎn)移的一個(gè)重要標(biāo)志。隨著人們對(duì)大規(guī)模真實(shí)文本處理的日益關(guān)注,越來越多的學(xué)者認(rèn)識(shí)到,基于語料庫(kù)的分析方法至少是對(duì)基于規(guī)則的分析方法的一個(gè)重要補(bǔ)充。因?yàn)閺摹按笠?guī)模”和“真實(shí)”這兩個(gè)因素來考察,語料庫(kù)才是最理想的語言知識(shí)資源。
目前,基于大規(guī)模真實(shí)語料庫(kù)的概率和數(shù)據(jù)驅(qū)動(dòng)的方法幾乎成為了自然語言處理的標(biāo)準(zhǔn)方法。句法剖析、詞類標(biāo)注、參照消解、話語分析、機(jī)器翻譯的技術(shù)全都開始引入概率,并且采用從語音識(shí)別和信息檢索中借過來的基于概率和數(shù)據(jù)驅(qū)動(dòng)的評(píng)測(cè)方法。
傳統(tǒng)的語言材料的搜集、整理和加工完全是手工進(jìn)行的,這是一種枯燥無味、費(fèi)時(shí)費(fèi)力的工作。計(jì)算機(jī)出現(xiàn)后,人們可以把這些工作交給計(jì)算機(jī)去做,這大大地減輕了人們的勞動(dòng)。后來,在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法,形成了語料庫(kù)語言學(xué),并成為了自然語言處理的一個(gè)分支學(xué)科。
語料庫(kù)語言學(xué)主要研究機(jī)器可讀自然語言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語法標(biāo)注、句法語義分析,以及具有上述功能的語料庫(kù)在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用。
第二,自然語言處理中越來越多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來獲取語言知識(shí)。
自然語言處理中的經(jīng)驗(yàn)主義傾向始于20世紀(jì)90年代,在21世紀(jì)它更以驚人的步伐向前推進(jìn)。這樣的加速發(fā)展在很大的程度上受到下面三種彼此協(xié)同的趨勢(shì)的推動(dòng)。
第一個(gè)趨勢(shì)是建立帶標(biāo)記語料庫(kù)的趨勢(shì)。在語言數(shù)據(jù)聯(lián)盟和其他相關(guān)機(jī)構(gòu)的幫助下,研究者們可以獲得口語和書面語的大規(guī)模的預(yù)料。重要的是,在這些語料中還包括一些標(biāo)注過的預(yù)料,這些語料庫(kù)是帶有句法、語義和語用等不同層次的標(biāo)準(zhǔn)文本語言資源。這些語言資源的存在大大地推動(dòng)了人們使用有監(jiān)督的機(jī)器學(xué)習(xí)方法來處理那些在傳統(tǒng)上非常復(fù)雜的自動(dòng)剖析和自動(dòng)語義分析等問題。這些語言資源也推動(dòng)了有競(jìng)爭(zhēng)性的評(píng)測(cè)機(jī)制的建立。評(píng)測(cè)的范圍涉及到自動(dòng)剖析、信息抽取、詞義排歧、問答系統(tǒng)、自動(dòng)文摘等領(lǐng)域。
第二個(gè)趨勢(shì)是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的趨勢(shì)。對(duì)于機(jī)器學(xué)習(xí)的日益增長(zhǎng)的重視,導(dǎo)致了學(xué)者們與統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究者們更加頻繁地交互,彼此之間相互影響。
第三個(gè)趨勢(shì)是高性能計(jì)算機(jī)系統(tǒng)發(fā)展的趨勢(shì),高性能計(jì)算機(jī)系統(tǒng)的廣泛應(yīng)用,為機(jī)器學(xué)習(xí)系統(tǒng)的大規(guī)模訓(xùn)練和效能發(fā)揮提供了有利的條件,而這些在20世紀(jì)是難以想象的。
在20世紀(jì)90年代末期,大規(guī)模的無監(jiān)督統(tǒng)計(jì)學(xué)習(xí)方法得到了重新關(guān)注。機(jī)器翻譯和主題模擬等領(lǐng)域中統(tǒng)計(jì)方法的進(jìn)步,說明了也可以只訓(xùn)練完全沒有標(biāo)注過的數(shù)據(jù)來構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng),這樣的系統(tǒng)也可以得到有效的應(yīng)用。由于建造可靠的標(biāo)注語料庫(kù)要花費(fèi)很高的成本,建造的難度很大,在很多問題中,這成為了使用有監(jiān)督的機(jī)器學(xué)習(xí)方法的一個(gè)限制性因素。因此,這個(gè)趨勢(shì)的進(jìn)一步發(fā)展,將使我們更多地使用無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)。
傳統(tǒng)語言學(xué)基本上是通過語言學(xué)家自行歸納總結(jié)語言現(xiàn)象的手工方法來獲取知識(shí)的,由于人的記憶力有限,任何語言學(xué)家,哪怕是語言學(xué)界的權(quán)威泰斗,都不可能記憶和處理浩如煙海的全部的語言數(shù)據(jù),因此,使用傳統(tǒng)的手工方法來獲取語言知識(shí),猶如以管窺豹,以蠡測(cè)海,這種獲取語言知識(shí)的方法不僅效率極低,而且?guī)в泻艽蟮闹饔^性。
當(dāng)前的自然語言處理研究提倡建立語料庫(kù),使用機(jī)器學(xué)習(xí)的方法,讓計(jì)算機(jī)自動(dòng)地從浩如煙海的語料庫(kù)中獲取準(zhǔn)確的語言知識(shí)。機(jī)器詞典和大規(guī)模語料庫(kù)的建設(shè),成為了當(dāng)前自然語言處理的熱點(diǎn)。
使用這種機(jī)器學(xué)習(xí)方法開發(fā)出來的基于語料庫(kù)的自動(dòng)分析軟件是獨(dú)立于具體語言的。只要有訓(xùn)練語料庫(kù),即使研究者不懂有關(guān)的語言,仍然可以使用自動(dòng)分析軟件得出不錯(cuò)的分析結(jié)果。這樣的機(jī)器學(xué)習(xí)方法達(dá)到的分析精度已經(jīng)可以與基于規(guī)則的方法達(dá)到的精度相媲美。這是語言學(xué)歷史上獲取語言學(xué)知識(shí)方法的革命性變革,每一個(gè)語言學(xué)工作者都應(yīng)當(dāng)敏銳地認(rèn)識(shí)到這樣的變革,改變陳舊的、傳統(tǒng)的知識(shí)獲取方法,采用新穎的、現(xiàn)代的知識(shí)獲取方法。
第三,統(tǒng)計(jì)數(shù)學(xué)方法越來越受到重視。
自然語言處理中越來越多地使用統(tǒng)計(jì)數(shù)學(xué)方法來分析語言數(shù)據(jù),使用人工觀察和內(nèi)省的方法,顯然不可能從浩如煙海的語料庫(kù)中獲取精確可靠的語言知識(shí),必須使用統(tǒng)計(jì)數(shù)學(xué)的方法。
語言模型是描述自然語言內(nèi)在規(guī)律的數(shù)學(xué)模型,構(gòu)造語言模型是自然語言處理的核心。語言模型可以分為傳統(tǒng)的規(guī)則型語言模型和基于統(tǒng)計(jì)的語言模型。規(guī)則型語言模型是人工編制的語言規(guī)則,這些語言規(guī)則主要來自語言學(xué)家掌握的語言學(xué)知識(shí),具有一定的主觀性和片面性,難以處理大規(guī)模的真實(shí)文本。基于統(tǒng)計(jì)的語言模型通常是概率模型,計(jì)算機(jī)借助于語言統(tǒng)計(jì)模型的概率參數(shù),可以估計(jì)出自然語言中語言成分出現(xiàn)的可能性,而不是單純地判斷這樣的語言成分是否符合語言學(xué)規(guī)則,這種概率性的語言統(tǒng)計(jì)模型顯然比規(guī)則型語言模型更加客觀和全面。
第四,自然語言處理中越來越重視詞匯的作用,出現(xiàn)了強(qiáng)烈的“詞匯主義”的傾向。
近些年來,語料庫(kù)證據(jù)支持的詞匯學(xué)研究蓬勃發(fā)展。越來越多的實(shí)證研究表明,詞匯和語法在語言中是交織在一起的,必須整合起來進(jìn)行描述。詞匯是話語實(shí)現(xiàn)的主要載體,語法的作用僅僅是管理意義、組合成份和構(gòu)筑詞項(xiàng)。
理論語言學(xué)中強(qiáng)調(diào)詞匯作用的傾向,叫作“詞匯主義”,這種詞匯主義的傾向也影響到自然語言處理。
自然語言中充滿了歧義,歧義問題的解決不僅與概率和結(jié)構(gòu)有關(guān),還往往與詞匯的特性有關(guān);英語中的介詞短語附著問題和并列結(jié)構(gòu)歧義問題,都必須依靠詞匯知識(shí)才能解決。盡管在自然語言處理中使用數(shù)學(xué),使用概率的方法,在遇到詞匯依存問題的時(shí)候往往顯得捉襟見肘、無能為力,我們還需要探索其他的途徑來進(jìn)一步提升概率語法的功能,其中的一個(gè)有效途徑,就是在概率語法中引入詞匯信息。
第五,多語言在線語言處理技術(shù)迅猛發(fā)展。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)逐漸變成一個(gè)多語言的網(wǎng)絡(luò)世界,互聯(lián)網(wǎng)上的機(jī)器翻譯、信息檢索和信息抽取等自然語言處理的需要變得更加緊迫。
信息量的豐富大大地?cái)U(kuò)張了人們的視野,人們希望能夠準(zhǔn)確地、迅速地獲取到自己需要的信息,自然語言處理技術(shù)已經(jīng)成為了解決海量信息的獲取問題的強(qiáng)有力的手段。
而所有的這些信息主要都是以語言文字作為載體的,也就是說,網(wǎng)絡(luò)世界主要是由語言文字構(gòu)成的。
由于互聯(lián)網(wǎng)上使用英語之外的其他語言的人數(shù)增加得越來越多,英語在互聯(lián)網(wǎng)上獨(dú)霸天下的局面已經(jīng)徹底打破,互聯(lián)網(wǎng)確實(shí)已經(jīng)變成了“多語言的網(wǎng)絡(luò)世界”。“多語言”這個(gè)特性使得互聯(lián)網(wǎng)變得豐富多彩,同時(shí)也造成了不同語言之間交流和溝通的困難,互聯(lián)網(wǎng)上的語言障礙問題顯得越來越突出,越來越嚴(yán)重。因此,網(wǎng)絡(luò)上的不同自然語言之間的計(jì)算機(jī)自動(dòng)處理也就變得越來越迫切了。
總結(jié)
以上是生活随笔為你收集整理的《自然语言处理简明教程》读书笔记:前言的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux运维常用命令
- 下一篇: java中main函数解析