當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《自然语言处理（哈工大关毅 64集视频）》学习笔记：第二章数学基础与语言学基础

發(fā)布時間：2024/1/1 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了《自然语言处理（哈工大关毅 64集视频）》学习笔记：第二章数学基础与语言学基础小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言
關(guān)毅老師，現(xiàn)為哈工大計算機(jī)學(xué)院語言技術(shù)中心教授，博士生導(dǎo)師。通過認(rèn)真學(xué)習(xí)了《自然語言處理（哈工大關(guān)毅 64集視頻）》¹（來自互聯(lián)網(wǎng)）的課程，受益良多，在此感謝關(guān)毅老師的辛勤工作！為進(jìn)一步深入理解課程內(nèi)容，對部分內(nèi)容進(jìn)行了延伸學(xué)習(xí)² ³ ⁴，在此分享，期待對大家有所幫助，歡迎加我微信（驗證：NLP），一起學(xué)習(xí)討論，不足之處，歡迎指正。

視頻列表：
10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 一
11數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 二
12數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 三
13數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 四
14數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 五
15數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 六
16數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 七

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 一

第二章數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ)

本章內(nèi)容

1、數(shù)學(xué)基礎(chǔ)
2、語言學(xué)基礎(chǔ)
3、實用知識

數(shù)學(xué)基礎(chǔ)介紹

數(shù)學(xué)與語言學(xué)

數(shù)學(xué)
大自然的語言
科學(xué)的語言
語言學(xué)
語言是大自然的產(chǎn)物
語言學(xué)是科學(xué)的一個分支
采用數(shù)學(xué)的方法描述語言
計算語言學(xué)
建立語言的數(shù)學(xué)模型

有數(shù)學(xué)基礎(chǔ)的方法 vs 沒有數(shù)學(xué)基礎(chǔ)的方法

有數(shù)學(xué)基礎(chǔ)的方法
美麗的方法
經(jīng)得起時間考驗的方法
沒有數(shù)學(xué)基礎(chǔ)的方法
打補(bǔ)丁的方法
adhoc(ad hoc)

概率論在語言技術(shù)中的應(yīng)用

統(tǒng)計語言處理技術(shù)已經(jīng)成為主流
統(tǒng)計語言處理的步驟

收集自然語言詞匯的分布情況

根據(jù)這些分布情況進(jìn)行統(tǒng)計推導(dǎo)

最典型的例子：構(gòu)造統(tǒng)計語言模型

概率論是統(tǒng)計語言模型的數(shù)學(xué)基礎(chǔ)

概率論回顧

概率論是研究隨機(jī)現(xiàn)象的數(shù)學(xué)分支
所謂隨機(jī)現(xiàn)象是指這樣的一類現(xiàn)象，當(dāng)人們觀察它時，所得到的觀察結(jié)果不是確定的，而是許許多多可能結(jié)果中的一種
概率（Probability）則是衡量該事件發(fā)生的可能性的量度

概率

樣本空間 Ω 是一個隨機(jī)試驗所有可能的結(jié)果的集合
事件 A 是Ω的子集
概率函數(shù) (或者概率分布)
$P:Ω→[0,1]P:\Omega \rightarrow [0,1]$
某字或者某詞出現(xiàn)的概率是多少？
示例1：
現(xiàn)代漢語字頻統(tǒng)計–由北京航空學(xué)院和國家語言文字工作委員會于1985年完成。從1977年至1982年間社會科學(xué)和自然科學(xué)的規(guī)模為一千一百零八萬余字的語料中利用計算機(jī)進(jìn)行統(tǒng)計得到漢字的字頻，前20個最高頻漢字列出如表所示：

示例2⁴：
在語言處理中使用頻率分布，NLTK 中內(nèi)置FreqDist，讓我們使用FreqDist 尋找《白鯨記》中最常見的50 個詞。

from pylab import * %matplotlib inlinefrom nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, …, text9 and sent1, …, sent9
Type the name of the text or sentence to view it.
Type: ‘texts()’ or ‘sents()’ to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

《白鯨記》(Moby Dick by Herman Melville 1851)

fdist1 = FreqDist(text1) print(fdist1)

<FreqDist with 19317 samples and 260819 outcomes>
第一次調(diào)用FreqDist 時，傳遞文本的名稱作為參數(shù)。我們可以看到已經(jīng)被計算出來的《白鯨記》中的總的詞數(shù)（“結(jié)果”）——高達(dá)260,819。

print(fdist1.most_common(50))

[(’,’, 18713), (‘the’, 13721), (’.’, 6862), (‘of’, 6536), (‘a(chǎn)nd’, 6024), (‘a(chǎn)’, 4569), (‘to’, 4542), (’;’, 4072), (‘in’, 3916), (‘that’, 2982), ("’", 2684), (’-’, 2552), (‘his’, 2459), (‘it’, 2209), (‘I’, 2124), (‘s’, 1739), (‘is’, 1695), (‘he’, 1661), (‘with’, 1659), (‘was’, 1632), (‘a(chǎn)s’, 1620), (’"’, 1478), (‘a(chǎn)ll’, 1462), (‘for’, 1414), (‘this’, 1280), (’!’, 1269), (‘a(chǎn)t’, 1231), (‘by’, 1137), (‘but’, 1113), (‘not’, 1103), (’–’, 1070), (‘him’, 1058), (‘from’, 1052), (‘be’, 1030), (‘on’, 1005), (‘so’, 918), (‘whale’, 906), (‘one’, 889), (‘you’, 841), (‘had’, 767), (‘have’, 760), (‘there’, 715), (‘But’, 705), (‘or’, 697), (‘were’, 680), (‘now’, 646), (‘which’, 640), (’?’, 637), (‘me’, 627), (‘like’, 624)]
這50 個詞在書中的分布情況，如下：

fdist1.plot(50, cumulative=False)

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 二

漢字的信息熵

信息熵

香農(nóng)1948年發(fā)表了著名的論文《通訊的數(shù)學(xué)理論》，宣告了信息論的誕生。在這篇論文中，他選擇概率論作為數(shù)學(xué)工具，提出了用“不確定性的量度”來計算信息量的數(shù)學(xué)公式，為信息論奠定了理論基礎(chǔ)。
$={\sum_{}^{x\in \Omega }} - p(x) \log p(x)$
示例⁴：

上圖顯示了在名字性別預(yù)測任務(wù)中標(biāo)簽的熵如何取決于男性名字對女性名字的比例。請注意，如果大多數(shù)輸入值具有相同的標(biāo)簽（例如，如果P(male)接近0 或接近1），那么熵很低。特別的，低頻率的標(biāo)簽不會貢獻(xiàn)多少給熵（因為P(l)很小），高頻率的標(biāo)簽對熵也沒有多大幫助（因為 $log_{e}P(I)$ 很小）。另一方面，如果輸入值的標(biāo)簽變化很多，那么有很多“中等”頻率的標(biāo)簽，它們的 $P (l)$ 和 $log_{e}P(I)$ 都不小，所以熵很高。下面演示如何計算標(biāo)簽鏈表的熵。

import math import nltk def entropy(labels):freqdist = nltk.FreqDist(labels)probs = [freqdist.freq(l) for l in freqdist]return -sum(p * math.log(p,2) for p in probs) print(entropy(['male', 'male', 'male', 'male']))

-0.0

print(entropy(['male', 'female', 'male', 'male']))

0.8112781244591328

print(entropy(['female', 'male', 'female', 'male']))

1.0

print(entropy(['female', 'female', 'male', 'female']))

0.8112781244591328

print(entropy(['female', 'female', 'female', 'female']))

-0.0

漢字是世界上信息量最大的文字符號系統(tǒng)

每收到一個英文訊號消除的不確定程度H 是4.1606比特。
漢字的信息熵隨著漢字個數(shù)的增加而增加，當(dāng)漢字的個數(shù)達(dá)到12366個漢字時，漢字的信息熵值為9.65（馮志偉）
漢字是當(dāng)今世界上信息量最大的文字符號系統(tǒng)

幾點認(rèn)識

漢字的信息量最大，世界冠軍
漢字低劣論與漢字優(yōu)越論
在信息編碼、存儲和傳輸?shù)确矫鏉h字處于相對不利的地位
隨著網(wǎng)絡(luò)時代的發(fā)展，網(wǎng)絡(luò)上的中文信息量已經(jīng)居于第二的位置

條件概率

對于隨機(jī)試驗的結(jié)果有部分知識(或者約束條件)
條件概率(Conditional probability)

已知B為真的條件下A 為真的概率可以表示為P(A|B)

先驗概率(prior probability)

后驗概率(posterior probability)
示例1：

P (大 學(xué)) = 0.0003

P (大 學(xué) ∣ 工 業(yè)) = P (工 業(yè) 大 學(xué)) / P (工 業(yè)) > P (大 學(xué))

示例2⁴:
概率分布計算觀察到的事件，如文本中出現(xiàn)的詞匯。條件概率分布需要給每個時間關(guān)聯(lián)一個條件，所以不是處理一個詞序列，我們必須處理的是一個配對序列。
text = [‘The’, ‘Fulton’, ‘County’, ‘Grand’, ‘Jury’, ‘said’, …]
pairs = [(‘news’, ‘The’), (‘news’, ‘Fulton’), (‘news’, ‘County’), …]
每對的形式是：（條件，事件）。如果我們按文體處理整個布朗語料庫，將有15 個條件（每個文體一個條件）和1,161,192 個事件（每一個詞一個事件）。
按文體計數(shù)詞匯，FreqDist()以一個簡單的鏈表作為輸入，ConditionalFreqDist()以一個配對鏈表作為輸入。

import nltk from nltk.corpus import brown cfd = nltk.ConditionalFreqDist((genre, word)for genre in brown.categories()for word in brown.words(categories=genre)) genre_word = [(genre, word) for genre in ['news', 'romance']for word in brown.words(categories=genre)] len(genre_word)

170576

genre_word[:4]

[(‘news’, ‘The’), (‘news’, ‘Fulton’), (‘news’, ‘County’), (‘news’, ‘Grand’)]

genre_word[-4:]

[(‘romance’, ‘a(chǎn)fraid’), (‘romance’, ‘not’), (‘romance’, “’’”),(‘romance’, ‘.’)]
現(xiàn)在，我們可以使用此配對鏈表創(chuàng)建一個ConditionalFreqDist，并將它保存在一個變量cfd 中。

cfd = nltk.ConditionalFreqDist(genre_word) print(cfd)

cfd.conditions()

[‘romance’, ‘news’]

print(cfd['news'])

print(cfd['romance'])

print(list(cfd['romance']))

[‘conclusion’, ‘lucky’, ‘treat’, ‘Eph’, ‘darned’, ‘Got’, ‘sloppy’,…]

cfd['romance']['could']

193

圖2.1條件頻率分布圖：計數(shù)就職演說語料庫中所有以america 或citizen 開始的詞。每個演講單獨計數(shù)。這樣就能觀察出隨時間變化用法上的演變趨勢。

from pylab import * %matplotlib inlinefrom nltk.book import * import nltk from nltk.corpus import inauguralcfd = nltk.ConditionalFreqDist((target, fileid[:4])for fileid in inaugural.fileids()for w in inaugural.words(fileid)for target in ['america', 'citizen']if w.lower().startswith(target)) cfd.plot()

聯(lián)合概率

$P (A, B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$
$argmaxf(x)x\underset{x}{argmaxf(x)}$ 使 $f (x)$ 值為最大的那個
$argmaxAP(B∣A)P(A)P(B))=argmaxAP(B∣A)P(A)\underset{A}{argmax}\frac{P(B|A)P(A)}{P(B)})=\underset{A}{argmax}P(B|A)P(A)$
聯(lián)合概率的鏈規(guī)則：
$P (A, B, C, D \dots) = P (A) P (B ∣ A) P (C ∣ A, B) P (D ∣ A, B, C . .)$
示例:
$P (哈爾濱 / 工業(yè) / 大學(xué)) = P (哈爾濱) P (工業(yè) ∣ 哈爾濱) P (大學(xué) ∣ 哈爾濱, 工業(yè))$

獨立

兩個事件 A 與 B 相互獨立，如果 $P (A) = P (A ∣ B) ? P (A, B) = P (A) ? P (B)$

條件獨立

兩個事件 A 與 B 是在條件C下相互條件獨立如果: $P (A ∣ C) = P (A ∣ B, C)$

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 三

貝葉斯定理(Bayes’ Theorem)

貝葉斯定理的最簡形式

$P(A∣B)=P(A,B)P(B)=P(B∣A)P(A)P(B)P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}$

Bayes’Theorem使我們能夠交換事件之間的條件依賴順序
$argmaxAP(A∣B)=argmaxAP(B∣A)P(A)P(B))=argmaxAP(B∣A)P(A)\underset{A}{argmax}P(A|B)=\underset{A}{argmax}\frac{P(B|A)P(A)}{P(B)})=\underset{A}{argmax}P(B|A)P(A)$

貝葉斯定理的應(yīng)用實例

音字轉(zhuǎn)換
$argmaxTP(T∣S)=argmaxTP(S∣T)P(T)P(S))=argmaxTP(S∣T)P(T)\underset{T}{argmax}P(T|S)=\underset{T}{argmax}\frac{P(S|T)P(T)}{P(S)})=\underset{T}{argmax}P(S|T)P(T)$
這里， $P (S ∣ T)$ 字音轉(zhuǎn)換模型， $P (T)$ 語言模型，顯然構(gòu)造 $P (S ∣ T)$ 與 $P (T)$ 的難度較直接構(gòu)造 $P (T ∣ S)$ 大大地降低了

隨機(jī)變量

隨機(jī)變量（Random variables）(RV)使我們能夠討論與樣本空間相關(guān)的數(shù)值的概率值

離散型隨機(jī)變量
在某一時間點出現(xiàn)的單詞可以視為（離散型）隨機(jī)變量，語言可視為以時間為序的一組隨機(jī)變量的序列
$T=w_{1}w_{2}w_{3}...w_{t}...w_{n}$
連續(xù)型隨機(jī)變量

數(shù)學(xué)期望與方差

數(shù)學(xué)期望:隨機(jī)變量的均值
$E(x)=μ=∑xxp(x)E(x)=\mu ={\sum_{}^{x}}{xp(x)}$
方差:隨機(jī)變量取值是否比較一致或者有很大差異的一個量度
$Var(x)=E((X?E(X))2)=E(X2)?E(X)2=σ2Var(x)=E((X-E(X))^{2})=E(X^{2})-E(X)^{2}=\sigma ^{2}$
$σ\sigma$ 稱為標(biāo)準(zhǔn)差
應(yīng)用示例-新詞發(fā)現(xiàn)
統(tǒng)計大規(guī)模語料中字A與字B的間隔字?jǐn)?shù)的數(shù)學(xué)期望與方差,假設(shè)方差很小，比如小于某個閾值，那么A…B很可能成詞

構(gòu)造語言模型P(T)的兩類方法

基于頻度的統(tǒng)計
貝葉斯統(tǒng)計

基于頻度的統(tǒng)計

相關(guān)頻度(頻率)：事件 $μ\mu$ 發(fā)生的次數(shù)與所有事件總次數(shù)的比率
$f(μ)=C(μ)Nf(\mu) = \frac{C(\mu)}{N}$
在 $N$ 次實驗中 $μ\mu$ 發(fā)生的次數(shù)，當(dāng) $N→∞,f(μ)N\rightarrow \infty ,f(\mu)$ 逐漸穩(wěn)定在某個數(shù)值上，作為該事件的概率估計

有參數(shù)的方法(Parametric)(與分布有關(guān))
假設(shè)某種語言現(xiàn)象服從我們業(yè)已熟知的某種分布，如二元分布，正態(tài)分布，泊松分布等等，我們已有明確的概率模型，現(xiàn)在需要確定該概率分布的一些參數(shù)。
常用分布

二元分布(Binomial distribution)
在英語語料庫中，包含單詞“the”的語句占語料庫中語句總數(shù)的比例近似地服從二項分布

泊松分布(Poisson distribution)
在某一固定大小的范圍(或者時間段)內(nèi)，某種特定類型事件的分布

正態(tài)分布 (高斯分布Gaussian distribution)(Normal distribution)
漢字的筆畫數(shù)與該筆畫對應(yīng)的漢字的個數(shù)符合正態(tài)分布

無參數(shù)的方法(Non-parametric)(與分布無關(guān))
對數(shù)據(jù)的分布沒有預(yù)先的分布假設(shè)
僅僅通過最大相似度估計來估算P
先驗知識比較少,但需要大規(guī)模的訓(xùn)練數(shù)據(jù)
本課主要探討無參數(shù)的方法

貝葉斯統(tǒng)計

貝葉斯統(tǒng)計的實質(zhì)是可信度數(shù)量化
可信度是這樣計算出來的

有先驗的知識

根據(jù)數(shù)據(jù)應(yīng)用貝葉斯定理更新知識

M?=argmaxMP(M∣D)=argmaxMP(D∣M)P(M)P(D))=argmaxMP(D∣M)P(M)M^{*} = \underset{M}{argmax}P(M|D) = \underset{M}{argmax}\frac{P(D|M)P(M)}{P(D)})= \underset{M}{argmax}P(D|M)P(M)

先驗的概率分布

P (M)

，

當(dāng)新的數(shù)據(jù)到來后,根據(jù)貝葉斯公式計算

P (M ∣ D)

P (M ∣ D)

成為新的概率模型

如此反復(fù)

其他數(shù)學(xué)基礎(chǔ)

信息論
集合論
函數(shù)與關(guān)系
微積分
粗糙集
……

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 四

語言學(xué)基礎(chǔ)

漢語語言學(xué)基礎(chǔ)

自然語言處理系統(tǒng)中的語言知識庫

自然語言處理系統(tǒng)可以直接利用的機(jī)器詞典中的語言知識包含了詞法、句法、語義和語用等各個層面的信息。
詞法和句法信息總是最基本的，也是研究得比較成熟的
現(xiàn)代漢語語義資源已經(jīng)出現(xiàn)（hownet, 中文wordnet）

現(xiàn)代漢語詞語的語法功能分類

朱德熙的語法理論《語法講義》1984年
90年代初北京大學(xué)計算語言所與中文系合作,提出了一個面向語言信息處理的現(xiàn)代漢語詞語分類體系
《語法答問》通俗易懂的漢語語法入門讀物

基本詞類

實詞

體詞

名詞(n)：例如，牛、書、水、教授、國家、心胸、北京
時間詞(t)：例如，明天、元旦、唐朝、現(xiàn)在、春天
處所詞(s)：例如，空中、低處、郊外
方位詞(f)：例如，上、下、前、后、東、西、南、北
數(shù)詞(m)：例如，一、第一、千、零、許多、百萬
量詞(q)：例如，個、群、克、杯、片、種、些
代詞? (體詞性)：例如，你、我們、這、哪兒、誰

謂詞

代詞? (謂詞性)：例如，這樣
動詞(v)：例如，走、休息、同意、能夠、出去、是、調(diào)查
形容詞(a)：例如，好、紅、大、溫柔、美麗、突然
狀態(tài)詞(z)：例如，雪白、金黃、淚汪汪、滿滿當(dāng)當(dāng)、灰不溜秋

其他實詞

區(qū)別詞(b)：例如，男、女、公共、微型、初級
副詞(d)：例如，不、很、都、剛剛、難道、忽然

虛詞

介詞§：例如，把、被、對于、關(guān)于、以、按照
連詞?：例如，和、與、或、雖然、但是、不但、而且
助詞(u)：例如，了、著、過、的、得、所、似的
語氣詞(y)：例如，嗎、呢、吧、嘛、啦
擬聲詞(o)：例如，嗚、啪、丁零當(dāng)啷、嘩啦
嘆詞(e)：例如，哎、喔、哦、啊

附加類別與標(biāo)點符號

小于詞的單位

前接成分(h): 阿，老，超
后接成分(k): 兒, 子, 性, 員, 器
語素字 (g): 柿, 衣, 失, 遙, 郝
非語素字(x): 鵪, 枇, 蚣

大于詞的單位

成語 (i) : 胸有成竹, 八拜之交
習(xí)用語 (l) : 總而言之, 由此可見
簡稱略語(j) : 三好, 全總

標(biāo)點符號

各類詞語的主要特點

實詞的主要特點

開放類
能單獨充當(dāng)某種句法成分
位置不固定
具有較強(qiáng)的構(gòu)詞力
有比較具體的詞義

虛詞的主要特點

封閉類
不能充當(dāng)句法成分
粘著性
位置比較固定
沒有具體的詞義

體詞和謂詞

體詞和謂詞都屬于實詞
體詞主要語法功能是作主語、賓語，一般不作謂語。
謂詞的主要功能是作謂語，也能作主語和賓語

名詞

名詞是典型的體詞
一般不受副詞修飾
可以受數(shù)量詞修飾
名詞可以修飾名詞
名詞不能帶表示時態(tài)的助詞
名詞不能做狀語

動詞

是最典型最重要的謂詞
能帶真賓語的謂詞都是動詞（及物動詞）
不能帶真賓語的謂詞包括不及物動詞、形容詞和狀態(tài)詞
動名兼類
能愿動詞（助動詞）
動詞的形態(tài)變化比較豐富（VV,V一V,ABAB等等）

形容詞

是一類重要的謂詞
能直接受“很”一類程度副詞修飾且不能帶真賓語的謂詞是形容詞。形容詞可以帶準(zhǔn)賓語。
絕大多數(shù)形容詞可以受否定副詞“不”修飾
可以帶補(bǔ)語
名形兼類
形動兼類
形容詞的形態(tài)變化（AA,ABAB）

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 五

漢語的句法分析的特點

漢語句法分析的特殊性

漢語是一種“孤立語”
“孤立語”、“屈折語”、“粘著語”
同一詞類可擔(dān)任多種句法成分且無形態(tài)變化
漢語句子的構(gòu)造規(guī)則與短語的構(gòu)造規(guī)則基本一致
漢語的語序
在短語內(nèi)部語序嚴(yán)格固定
短語間語序比較靈活
虛詞經(jīng)常可以省略，增加了語法分析的困難
漢語詞切分有歧義

語言知識庫

語言知識庫是自然語言處理系統(tǒng)不可或缺的組成部分
語言知識庫的規(guī)模和質(zhì)量在很大程度上決定了自然語言處理系統(tǒng)的成敗

北大計算語言研究所的相關(guān)工作

現(xiàn)代漢語語法信息詞典
大規(guī)模現(xiàn)代漢語基本標(biāo)注語料庫
面向漢英機(jī)器翻譯的現(xiàn)代漢語語義詞典
英漢、日漢對照雙語語料庫
多個專業(yè)領(lǐng)域的術(shù)語庫
現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則庫
中國古代詩詞語料庫
…

示例

音字轉(zhuǎn)換系統(tǒng)語言知識庫
…
機(jī)器 ji1qi4
激起 ji1qi3
吉期 ji2qi3
極其 ji2qi2
及其 ji2qi2
…
現(xiàn)代漢語語義詞典
…
安樂/形 D378
安理會/名 L16
安謐/形 D405
安眠/動 C133
安眠藥/名 C235
…

什么是 Ontology

定義
An ontology consists of a set of concepts, axioms, and relationships that describe a domain of interest
Standard Upper Ontology (SUO) Working Group
中文譯為“本體”
可以理解為知識庫
不同領(lǐng)域有不同的ontology
我們關(guān)心的是語言ontology，又稱語言本體
語言本體通常特指語義知識庫，而語言知識庫則泛指詞匯、語法、語義知識庫

面向計算機(jī)的詞匯語義資源必須具備如下特點

高度形式化、可計算
揭示多重語義關(guān)系網(wǎng)絡(luò)
接受信息處理系統(tǒng)檢驗和評測

Hownet

董振東，董強(qiáng) www.keenage.com
是一個以漢語和英語的詞語所代表的概念為描述對象，以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫 -董振東

知網(wǎng)概況
漢字 7108
詞匯 83397
英語單詞和短語 79246
中文語義定義 97764
英文語義定義 98963

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 六

詞類統(tǒng)計：
ADJ： 11648
ADV： 1513
NOUN： 46412
VERB： 25742
…
詞長度統(tǒng)計
詞長=1： 6905
詞長=2： 45724
詞長=3： 13681
詞長=4： 13822
詞長=5： 1649
…

10數(shù)學(xué)基礎(chǔ)與語言學(xué)基礎(chǔ) 七

基于知網(wǎng)的詞匯語義相似度計算

語義相似度
基于語言知識庫的語義相似度計算
基于統(tǒng)計的語義相似度計算

如何構(gòu)造比較專業(yè)的語言知識庫

機(jī)器可讀詞典

Machine readable dictionary
lexicon

構(gòu)造 lexicon的方法

文本文件方式
數(shù)據(jù)庫
二進(jìn)制文件方式

二進(jìn)制文件方式

typedef struct HeadWordItem {int Wordid;unsigned char ChineseString[MAXWORDLEN];int freq; } HeadWordItem;typedef struct Lexicon {char LicenseInfo[256];int Item_Number_of_Lexicon_Head;int Item_Number_of_Lexicon_Body;HeadWordItem LexiconHead[HEAD_LEN]; } Lexicon;

構(gòu)建
Lexicon * lexicon=new Lexicon;
…
fopen(…“w+b”)
fwrite(lexicon,sizeof(Lexicon),1,lexiconfile)
fclose(…)
讀取
fread
更新
內(nèi)存指針操作
lexicon->LexiconHead[i].freq++;
訪問
Binary search
Hash
寫入
fwrite(…)
fclose(…)

參考文獻(xiàn)

《自然語言處理（哈工大關(guān)毅 64集視頻）》（來自互聯(lián)網(wǎng)） ??

王曉龍、關(guān)毅《計算機(jī)自然語言處理》清華大學(xué)出版社 2005年 ??

哈工大語言技術(shù)平臺云官網(wǎng)：http://ltp.ai/ ??

Steven Bird,Natural Language Processing with Python,2015 ?? ?? ?? ??

總結(jié)

以上是生活随笔為你收集整理的《自然语言处理（哈工大关毅 64集视频）》学习笔记：第二章数学基础与语言学基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：怎样把LoRa模块功耗降到极致
下一篇：《自然语言处理（哈工大关毅 64集视