日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《统计自然语言处理》读书笔记 一.基础知识及概念介绍

發布時間:2024/5/28 编程问答 66 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《统计自然语言处理》读书笔记 一.基础知识及概念介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? 最近準備學習自然語言處理相關的知識,主要參考《統計自然語言處理·宗成慶》和《Natural Language Processing with Python》,推薦大家閱讀。第一篇主要介紹的是NLP的基礎知識和概念介紹,其實也是我關于NLP的讀書筆記吧,希望對大家有所幫助

一. 概念介紹

? ? ? ??自然語言處理
? ? ? ??
自然語言處理(Natural Language Processing,簡稱NLP)技術的產生可追溯到20世紀50年代,它是一門集語言學、數學(代數、概率)、計算機科學和認知科學等于一體的綜合性交叉學科。如何讓計算機正確、有效地理解和處理人類語言,即“理解人所說的話”是當今具有巨大挑戰性的理論和技術問題。近年來應用包括文字識別、語音合成、網絡信息監控、不良信息過濾預警、圖像識別、情感計算、理解技術、問答系統。
? ? ? ? 中文信息處理
? ? ? ? 其中中文信息處理又是NLP重要的一個分支,目前國際上頗具影響力的技術評測,包括機器翻譯評測、信息抽取評測、句法分析評測都與漢語密切相關。中文信息處理既有NLP共性的問題,如生詞識別、歧義消解等,又有中文本身的問題,如漢語自動分詞、詞性定義規范問題等。
? ? ? ??書籍介紹
? ? ? ?《統計自然語言處理》詳細介紹了國內學者在漢語語料庫和詞匯知識構建、自動分詞(包括分詞方法和命名實體識別)與詞性標注、句法分析及口語信息處理等最新研究成果,還包括國際計算語言大會(ACL,剛在北京召開)最佳論文的部分。
? ? ? ? ?
本書第1至9章介紹統計自然語言處理的理論,包括預備知識、形式語言與自動機、語料庫與詞匯知識庫、語言模型、隱馬爾可夫模型、漢語自動分詞與詞性標注、句法分析和語義消歧;第10至15章主要介紹統計自然語言處理的應用,包括機器翻譯、語音翻譯、文本分類、信息檢索與問答系統、自動文摘與信息抽取、口語信息處理與人機對話。
? ? ? ??關于“理解”
? ? ? ? 關于“理解”的標準總會想到英國數學家圖靈(Turing)在1950年提出的評測標準:如果一個計算機系統的表現(act)、反應(react)和相互作用(interact)都和有意識的個體一樣,那么,這個計算機系統就應該被認為是有意識的。
? ? ? ? 在自然語言處理領域中,人們常用圖靈實驗來判斷計算機系統是否“理解”了某種自然語言的具體準則,如:通過問答系統(question-answering)系統測試計算機系統是否能夠正確地回答輸入文本中的有關問題;通過文摘生成(summarizing)系統測試計算機系統是否有能力自動生成文本摘要;通過機器翻譯(machine translation,MT)系統測試計算機系統是否具有把一種語言翻譯成另一種語言的能力等。

二. 自然語言處理研究內容和基本方法

? ? ? ??研究內容
? ? ? ? 自然語言處理研究內容十分廣泛,大致如下研究方向:
? ? ? ? 機器翻譯(machine translation):實現一種語言到另一種語言的自動翻譯。
? ? ? ? 自動文摘(automatic summarizing或automatic abstracting)將原文檔的主要內容和含義自動歸納、提煉出來,形成摘要或縮寫。
? ? ? ? 信息檢索(information retrieval):又稱情報檢索,就是利用計算機系統從海量文檔中找到符合用戶需求的相關文檔。面向多語言的IR叫跨語言信息檢索。
? ? ? ? 文檔分類(document categorization):又稱文本分類或信息分類,利用計算機系統對大量的文檔按照一定的分類標準(如主題或內容劃分)實現自動分類。
? ? ? ? 問答系統(question-answering system):通過計算機系統對人提出的問題的理解,利用自動推理等手段,在有關知識資源中自動求解答案并作出相應的回應。問答技術有時與語音技術額多模態輸入、輸出技術,以及人工交互技術等相結合,構成人機對話系統(human-computer dialogue system)。
? ? ? ? 文字編輯和自動校對(automatic proofreading):對文字拼寫、用詞,甚至語法、文檔格式等進行自動檢查、校對和編排。
? ? ? ? 信息過濾(information filtering):通過計算機系統自動識別和過濾那些滿足特定條件的文檔信息。主要用于信息安全和防護等。
? ? ? ? 語言教學(language teaching):借助計算機輔助教學工具,進行語言教學、操練和輔導等。
? ? ? ? 文字識別(optical character recognition,OCR):通過計算機系統對印刷體或手寫體等文字進行自動識別,將其轉換成計算機可以處理的電子文本。相對而言,文字識別主要內容屬于字符(漢字)圖像識別問題,但對于高性能文字識別系統,相關語言理解技術不可或缺。
? ? ? ? 語音識別(speech recognition):將輸入計算機的語音信號識別轉換成書面語表示。語音識別也稱自動語音識別(automatic speech recognition,ASR)。
? ? ? ? 文語轉換(text-to-speech conversion):將書面文本自動轉換成對應的語音表征,又稱語音合成(speech synthesis)。
? ? ? ? 說話人識別/認證/驗證(speaker recognition identification verification):對一說話人的言語樣本做聲學分析,依次判斷(確定或驗證)說話人的身份。
? ? ? ? 實際上,我們所能想到的涉及人類語言的任何研究幾乎都隱含著計算語言學的問題,這里不再一一列舉。
? ? ? ? 面臨困難
? ? ? ? 自然語言處理涉及形態學、語法學、語義學和語用學等幾個層面的問題,其最終應用目標包括機器翻譯、信息檢索、問答系統等廣泛應用領域。其需要面臨的關鍵問題就是——歧義消解(disambiguation)問題和未知語言現象問題。
? ? ? ? 自然語言中大量存在著歧義現象,無論是詞法層次、語法層次,無論哪類語言單位,歧義始終困擾著人們。
? ?eg1 Put the block in the box on the table.
? ?其中"on the table"即可修飾box,也可以限定block。于是可以得到兩種不同的句法結構:
? ?a.Put the block [in the box on the table].
? ?b.Put [the block in the box] on the table.
? ?在這個句子中再增加一個介詞短語"in the kitchen"可以得到5中可能的分析結構,實際上,這種歧義結構分析的結果數量隨著介詞短語數目的增加呈指數上升的。
? ?eg2 關于魯迅的著作.
? ?可以理解為"關于[魯迅/的/著作]",也可以理解為"[關于/魯迅]的著作"。漢語中存在很多歧義,我們說“今天中午吃食堂”絕不意味著把食堂吃下去;我們夸獎一個人說“這個人真牛”并不是說這個人是真正的牛。
? ?eg3 知識圖譜中也需要解決的歧義現象.


? ? ? ? 另一個是未知詞匯、未知結構等各種意想不到的情況,而且每一種語言又隨著社會發展而動態變化著,新的詞匯、詞義、句子結構都在不斷出現。尤其是在口語對話或計算機網絡對話(MSN、QQ、微信)中,各種稀奇古怪的網絡詞語和結構更是司空見慣。
? ? ? ? 因此自然語言處理系統必須具有較好的未知語言現象的處理能力,對各種可能輸入形式的容錯能力(系統的魯棒性)。當然還有很多其他問題,比如如何處理不同語言的差異、如何提取文本特征、資源匱乏、覆蓋率低、知識表示困難等。
? ? ? ? 基本方法

? ? ? ? 歲月不饒人,將近三十年光陰匆匆地流逝,當年我還是風華正茂的青年人,而今,已經變成了白發蒼蒼的老人了,我為這個事業坎坷地奮斗了大半生時間,其間甘苦難以言表。三十年來,不論是處于順境還是逆境,我對于IMAG和GETA始終懷著難分難解的深厚感情,這種感情當然主要是對于我們共同的自然語言處理事業的感情。——馮志偉

? ? ? ?還是推薦大家閱讀這本很經典的NLP書籍,希望文章對大家有所幫助,至少有個簡單的了解~后面可能還會寫幾篇自己感興趣的書籍讀后感。看到上面這段話,挺感動的,希望自己也能夠堅持心中的理想,十年如一日的堅持寫博客和教書生涯吧!^_^
? ? ? (By:Eastmount 2016-08-04 晚上8點 ??http://blog.csdn.net/eastmount/)


總結

以上是生活随笔為你收集整理的《统计自然语言处理》读书笔记 一.基础知识及概念介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。