计算机语言史话论文,【论文节选】自然语言处理发展历史。
說實(shí)話看完文章有點(diǎn)失望,作者帶有一貫的學(xué)術(shù)吹噓風(fēng),就像吹噓云計(jì)算,物聯(lián)網(wǎng)等等。談到現(xiàn)狀,只字不提問題,一句話“一旦自然語言處理的研究獲得成功,那么機(jī)器將能夠進(jìn)行思考,人類將得到繼工業(yè)革命后的又一次解放。不同的是工業(yè)革命解放了人類的身體,而自然語言處理將解放人類的大腦。”您在寫YY小說啊?
沒有認(rèn)識(shí)到未來需要解決的問題,就不可能走下去。期待未來真有大牛研究出來吧。
下面是節(jié)選的歷史。沒什么實(shí)際意義,就是給自己掃盲而已。
1.什么是自然語言處理
自然語言處理(Natural?Language?Processing,?NLP)是一種對(duì)自然語言信息進(jìn)行處理的技術(shù)[4],從語言學(xué)的角度來說,自然語言處理也叫計(jì)算語言學(xué)(Computational?Linguistics)。自然語言處理包括自然語言理解(Natural?Language?Understanding,?NLU)和自然語言生成(Natural?Language?Generation,?NLG)兩部分。自然語言理解是指對(duì)自然語言的內(nèi)容和意圖的深層把握。在人工智能領(lǐng)域中,自然語言理解特指計(jì)算機(jī)對(duì)自然語言的內(nèi)容和意圖的深層把握。自然語言生成是指從非自然語言輸入到自然語言輸出的處理。自然語言理解與自然語言生成互為逆過程[5]。圖1簡(jiǎn)單地表示了自然語言處理、自然語言理解和自然語言生成三者之間的關(guān)系。其中,語言A和語言B可以是相同的語言,也可以是不同的語言。當(dāng)語言A和語言B是相同的語言時(shí),整個(gè)過程表示為聊天式交流;而當(dāng)語言A和語言B是不同的語言時(shí),整個(gè)過程則表示為機(jī)器翻譯式交流。
2.發(fā)展概況
自然語言處理的發(fā)展大致經(jīng)歷了4個(gè)階段:1956年以前的萌芽期;1957-1970年的快速發(fā)展期;1971?-1993年的低谷的發(fā)展期和1994年至今的復(fù)蘇融合期。
2.1萌芽期(1956年以前)
1956年以前,可以看作自然語言處理的基礎(chǔ)研究階段。一方面,人類文明經(jīng)過了幾千年的發(fā)展,積累了大量的數(shù)學(xué)、語言學(xué)和物理學(xué)知識(shí)。這些知識(shí)不僅是計(jì)算機(jī)誕生的必要條件,同時(shí)也是自然語言處理的理論基礎(chǔ)。另一方面,阿蘭·圖靈在1936年首次提出了“圖靈機(jī)”的概念。“圖靈機(jī)”作為計(jì)算機(jī)的理論基礎(chǔ),促使了1946年電子計(jì)算機(jī)的誕生。而電子計(jì)算機(jī)的誕生又為機(jī)器翻譯和隨后的自然語言處理提供了物質(zhì)基礎(chǔ)。
由于來自機(jī)器翻譯的社會(huì)需求,這一時(shí)期也進(jìn)行了許多自然語言處理的基礎(chǔ)研究。1948年Shannon把離散馬爾可夫過程的概率模型應(yīng)用于描述語言的自動(dòng)機(jī)。接著,他又把熱力學(xué)中“熵”(entropy)的概念引用于語言處理的概率算法中。上世紀(jì)50年代初,Kleene研究了有限自動(dòng)機(jī)和正則表達(dá)式。1956年,Chomsky又提出了上下文無關(guān)語法,并把它運(yùn)用到自然語言處理中。他們的工作直接引起了基于規(guī)則和基于概率這兩種不同的自然語言處理技術(shù)的產(chǎn)生。而這兩種不同的自然語言處理方法,又引發(fā)了數(shù)十年有關(guān)基于規(guī)則方法和基于概率方法孰優(yōu)孰劣的爭(zhēng)執(zhí)。
另外,這一時(shí)期還取得了一些令人矚目的研究成果。比如,1946年K?enig進(jìn)行了關(guān)于聲譜的研究。1952年Bell實(shí)驗(yàn)室語音識(shí)別系統(tǒng)的研究。1956年人工智能的誕生為自然語言處理翻開了新的篇章。這些研究成果在后來的數(shù)十年中逐步與自然語言處理中的其他技術(shù)相結(jié)合。這種結(jié)合既豐富了自然語言處理的技術(shù)手段,同時(shí)也拓寬了自然語言處理的社會(huì)應(yīng)用面。
2.2快速發(fā)展期(1957-1970)
自然語言處理在這一時(shí)期很快融入了人工智能的研究領(lǐng)域中。由于有基于規(guī)則和基于概率這兩種不同方法的存在,自然語言處理的研究在這一時(shí)期分為了兩大陣營。一個(gè)是基于規(guī)則方法的符號(hào)派(symbolic),另一個(gè)是采用概率方法的隨機(jī)派(stochastic)。
這一時(shí)期,兩種方法的研究都取得了長足的發(fā)展。從50年代中期開始到60年代中期,以Chomsky為代表的符號(hào)派學(xué)者開始了形式語言理論和生成句法的研究,60年代末又進(jìn)行了形式邏輯系統(tǒng)的研究。而隨機(jī)派學(xué)者采用基于貝葉斯方法的統(tǒng)計(jì)學(xué)研究方法,在這一時(shí)期也取得了很大的進(jìn)步。但由于在人工智能領(lǐng)域中,這一時(shí)期多數(shù)學(xué)者注重研究推理和邏輯問題,只有少數(shù)來自統(tǒng)計(jì)學(xué)專業(yè)和電子專業(yè)的學(xué)者在研究基于概率的統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò),所
以,在這一時(shí)期中,基于規(guī)則方法的研究勢(shì)頭明顯強(qiáng)于基于概率方法的研究勢(shì)頭。
這一時(shí)期的重要研究成果包括1959年賓夕法尼亞大學(xué)研制成功的TDAP系統(tǒng),布朗美國英語語料庫的建立等。1967年美國心理學(xué)家Neisser提出認(rèn)知心理學(xué)的概念,直接把自然語言處理與人類的認(rèn)知聯(lián)系起來了。
2.3低速的發(fā)展期(1971?-1993)
隨著研究的深入,由于人們看到基于自然語言處理的應(yīng)用并不能在短時(shí)間內(nèi)得到解決,而一連串的新問題又不斷地涌現(xiàn),于是,許多人對(duì)自然語言處理的研究喪失了信心。從70年代開始,自然語言處理的研究進(jìn)入了低谷時(shí)期。
但盡管如此,一些發(fā)達(dá)國家的研究人員依舊不依不撓地繼續(xù)著他們的研究。由于他們的出色工作,自然語言處理在這一低谷時(shí)期同樣取得了一些成果。70年代,基于隱馬爾可夫模型(Hidden?Markov?Model,?HMM)的統(tǒng)計(jì)方法在語音識(shí)別領(lǐng)域獲得成功。80年代初,話語分析(Discourse?Analysis)也取得了重大進(jìn)展。之后,由于自然語言處理研究者對(duì)于過去的研究進(jìn)行了反思,有限狀態(tài)模型和經(jīng)驗(yàn)主義研究方法也開始復(fù)蘇。
2.4復(fù)蘇融合期(1994年至今)
90年代中期以后,有兩件事從根本上促進(jìn)了自然語言處理研究的復(fù)蘇與發(fā)展。一件事是90年代中期以來,計(jì)算機(jī)的速度和存儲(chǔ)量大幅增加,為自然語言處理改善了物質(zhì)基礎(chǔ),使得語音和語言處理的商品化開發(fā)成為可能;另一件事是1994年Internet商業(yè)化和同期網(wǎng)絡(luò)技術(shù)的發(fā)展使得基于自然語言的信息檢索和信息抽取的需求變得更加突出。這樣,自然語言處理的社會(huì)需求更加迫切,自然語言處理的應(yīng)用面也更加寬廣,自然語言處理不再局限于機(jī)器翻譯、語音控制等早期研究領(lǐng)域了。
從90年代末到21世紀(jì)初,人們逐漸認(rèn)識(shí)到,僅用基于規(guī)則的方法或僅用基于統(tǒng)計(jì)的方法都是無法成功進(jìn)行自然語言處理的。基于統(tǒng)計(jì)、基于實(shí)例和基于規(guī)則的語料庫技術(shù)在這一時(shí)期開始蓬勃發(fā)展,各種處理技術(shù)開始融合,自然語言處理的研究又開始興旺起來。
總結(jié)
以上是生活随笔為你收集整理的计算机语言史话论文,【论文节选】自然语言处理发展历史。的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: signature=27ba8feff2
- 下一篇: 初中生学计算机视频,推荐一下适合中学生的