自然语言处理简明教程——序言、第一章
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理简明教程——序言、第一章
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
序言:
0.1自然語言與人工語言的區別:
(1)自然語言充滿歧義,而人工語言的歧義是可以控制的
(2)自然語言的結構復雜多樣,而人工語言的結構相對簡單
(3)自然語言的語義表達千變萬化,迄今還沒有一種簡單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義
(4)自然語言的結構和語義之間有著千絲萬縷的、錯綜復雜的聯系,一般不存在一一對應的同構關系,而人工語言則常常可以把結構和語義分別進行處理,人工語言的結構和抑?
? ? ? ? ? 郁之間有著整齊的一一對應的同構關系
? ? ? ? ? 自然語言的這些獨特性質,使得自然語言處理成為人工智能領域的一大難題。
0.2 自然語言處理與計算語言學的概念區別:
自然語言處理這個術語主要用于說明方法,計算語言學這個術語主要用于說明理論
0.3當前自然語言處理的發展方向:
(1)隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的處理成為自然語言處理的主要戰略目標,概率和數據驅動的方法幾乎成為了自然語言處理的 標準方法
(2)自然語言處理中越來越多地使用機器學習的方法來獲得語言知識
(3)統計數學方法越來越受到重視
(4)自然語言處理中越來越重視詞匯的作用
(5)多語言在線自然語言處理技術迅猛發展,這是由于網絡的發展,互聯網逐漸變成一個多語言的網絡世界,互聯網上的機器翻譯、信息檢索、信息抽取等問題的處理變得更加緊迫
在書中的18頁,馮老師列舉了介紹計算語言學原理的書籍,都是馮老師曾經的作品
第一章
1.1自然語言處理中形式模型的歸納(by:馮志偉老師)
(1)基于短語結構語法的形式模型:主要有喬姆斯基的短語結構語法,遞歸轉移網絡和擴充轉移網絡,自底向上分析法與自頂向下分析法,通用句法生成器和線圖分析法,Earley算法,左角分析法,CKY算法,Tomita算法,喬姆斯基的管轄—約束理論與最簡方案,尤喜(A.Joshi)的樹鄰接語法等 (2)基于合一運算的形式模型:主要有卡普蘭(R.M.Kaplan)的詞匯功能語法,馬丁?凱依的功能合一語法,蓋茲達(G.Gazdar)的廣義短語結構語法,錫伯(Shieber)的PATR,珀拉德(C.Pollard)的中心語驅動的短語結構語法,佩瑞拉(F.Pereira)的定子句語法等 (3)基于依存和配價的形式模型:主要有泰尼埃(L.Tesni`ere)的依存語法,德國學者的配價語法,哈德森(Hudson) 的詞語法等 (4)基于格語法的形式模型:主要有菲爾默(C.J.Fillmore)的格語法和框架網絡 (5)基于詞匯主義的形式模型:主要有格羅斯(M.Gross)的詞匯語法,斯里托(Sleator)和湯佩雷(Temperley)的鏈語法,詞匯語義學,詞網(WordNet)等 (6)基于概率和統計的形式模型:主要有N元語法,隱馬爾科夫模型,最大熵模型,條件隨機場,查尼阿克(Charniak)的概率上下文無關語法和詞匯化的概率上下文無關語法,Bayes公式,動態規劃算法,噪聲信道模型,最小編輯距離算法,決策樹模型,加權自動機,Viterbi算法,向前算法等 (7)語義自動處理的形式模型:主要有義素分析法、語義場理論,語義網絡理論,蒙塔古的蒙塔古語法,威爾克斯(Y.A.Willks)的優選語義學,尚克(R.C.Schank)的概念依存理論,梅里楚克(Mel‘chuk)的意義—文本理論等 (8)語用自動處理的形式模型:主要有曼(Mann)和湯姆生(Tompson)的修辭結構理論,文本連貫中的常識推理技術等1.2 四種影響較大的邏輯語法
(1)定子句語法(DCG) (2)外位語法(XG) (3)修飾成分結構語法(MSG) (4)約束邏輯語法(PLG)1.3 詞匯語義學 ***(與目前的工作相關)
詞匯語義學(Lexical Semantics)是現代語義學和現代詞匯學結合的產物,其研究對象是語言中的詞義問題。它源于語言學,并與語義網、本體論、詞典編纂、知識表示等人工智能和認知科學密切相關1.4 自然語言處理對社會進步的重要作用
主要是介紹了幾個自然語言處理的具體應用,如:自動生成天氣預報、作文自動評分、語音地理導航燈1.5 語言符號的特點
馮老師自己在索緒爾(《普通語言學教程》)的基礎上,總結了語言符號的7個特點:語言符號的層次性、語言符號的非單元性、語言符號的離散性、語言符號的遞歸性、語言符號的隨機性、語言符號的冗余性、語言符號的模糊性總結
以上是生活随笔為你收集整理的自然语言处理简明教程——序言、第一章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转JS总结1--(CSS书写规范和正则表
- 下一篇: datatables隐藏列设置及获取隐藏