计算机语言学 自然语言处理程序,利用知网进行(计算机)自然语言处理
摘要:
自然語言理解,特別是中文信息處理,一直是計算機界的難題.讓計算機來理解和處理豐富的自然語言,極具挑戰性.自然語言的計算機處理是一個多學科交叉研究領域.來自計算機科學,語言學,數學等不同學科的研究人員構成了目前這一領域的主要研究力量.自然語言處理就是研究如何能讓計算機理解并生成人們日常所使用的(如漢語,英語)語言,使得計算機懂得自然語言的含義,并對人給計算機提出的問題,通過對話的方式,用自然語言進行回答. 近十多年來,隨著計算機本身以及信息高速公路的飛速發展,中文信息處理開始更加重視語義的研究以及大規模語義詞典或大規模知識庫的建設.知網的創始人董振東先生在從事多年這方面研究的基礎上在中文信息處理中創出新路,提出了知網(HowNet)的概念.知網是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫.它為語言信息處理的研發提供了豐富的知識資源. 本文根據董先生提出的知網理論和知網的數據文件,設計并建立了一個較為系統的知識庫,并在上層利用知網知識庫進行漢語言信息處理方面做了初步的研究.對于知識庫的設計,即后臺的語言知識表示系統,我們采用了程序表示和數據庫結合的方法,即采用面向對象的程序設計方法對知識的概念進行表示,同時在數據庫中記錄詞和程序的對應關系.這樣在分析自然語言的時候,面對的不再是一些字符編碼的組合,而是一個能描述詞意義的對象集合.在知識庫的基礎之上我們還嘗試地設計了知識庫的API,為上層進行語言排歧和語義相似度計算等自然語言處理提供訪問知識庫的接口.最后,本文指出了在設計時的不足以及可能的改進方案.
展開
總結
以上是生活随笔為你收集整理的计算机语言学 自然语言处理程序,利用知网进行(计算机)自然语言处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MOOC 研究生学术与职业素养 课后答案
- 下一篇: 三层交换机LACP协议对 L2/L3端口