MIT自然语言处理第二讲:单词计数(第一、二部分)
MIT自然語言處理第二講:單詞計數(第一部分)
自然語言處理:單詞計數
Natural Language Processing: (Simple) Word Counting
作者:Regina Barzilay(MIT,EECS Department, November 15, 2004)
譯者:我愛自然語言處理(www.52nlp.cn?,2009年1月8日)
這一講主要內容(Today):
1、語料庫及其性質(Corpora and its properties);
2、Zipf 法則( Zipf’s Law );
3、標注語料庫例子(Examples of annotated corpora);
4、分詞算法(Word segmentation algorithm);
一、 語料庫及其性質(Corpora and its properties):
a) 什么是語料庫(Corpora)
i. 一個語料庫就是一份自然發生的語言文本的載體,以機器可讀形式存儲(A corpus is a body of naturally occurring text, stored in a machine-readable form);
ii. 一種平衡語料庫嘗試在語言或者其他領域具有代表性(A balanced corpus tries to be representative across a language or other domains);
b) 譯者注:平行語料庫與平衡語料庫的特點與區別
i. 平行語料庫(parallel corpus)通常是由雙語或多語的對應語料構成,常常是翻譯文本構成。例如:Babel English-Chinese Parallel Corpus。平行語料庫常被用做對比和翻譯研究之用。
ii. 平衡語料庫(balanced corpus)主要是指其語料的取樣上是均衡的,有代表性的。這種語料可以用作得出有關某種語言特性的一般性的結論。例如:Lancaster Corpus of Mandarin Chinese以及Academia Sinica Balanced Corpus of Modern Chinese
c) 單詞計數(Word Counts)
i. 在文本中最常見的單詞是哪些(What are the most common words in the text)?
ii. 在文本中有多少個單詞(How many words are there in the text)?
iii. 在大規模語料庫中單詞分布的特點是什么(What are the properties of word distribution in large corpora)?
d) 我們以馬克吐溫的《湯姆?索耶歷險記》為例(We will consider Mark Twain’s Tom Sawyer):
單詞(word) 頻率(Freq) 用法(Use)
the 3332 determiner (article)
and 2972 conjunction
a 1775 determiner
to 1725 preposition, inf. marker
of 1440 preposition
was 1161 auxiliary verb
it 1027 pronoun
in 906 preposition
that 877 complementizer
Tom 678 proper name
i. 一些觀察結果(Some observations):
1. 虛詞占了大多數(Dominance of function words);
2. 語料庫依賴的主題詞也占了一部分,例如”Tom”(Presence of corpus-dependent items (e.g., “Tom”))
ii. 思考:是否有可能建立一個真正具有“代表性”的英文樣本語料庫(Is it possible to create a truly “representative” sample of English)?
e) 這個例句里有多少個單詞(How Many Words Are There):
They picnicked by the pool, then lay back on the grass and looked at the stars.
i. “型”(Type) ——語料庫中不同單詞的數目,詞典容量( number of distinct words in a corpus,vocabulary size)
ii. “例”(Token) — 語料中總的單詞數目(total number of words in a corpus)
iii. 注:以上定義參考自《自然語言處理綜論》
iv. 湯姆?索耶歷險記(Tom Sawyer)中有:
1. 詞型(word types) — 8, 018
2. 詞例(word tokens)— 71, 370
3. 平均頻率(average frequency)— 9(注:詞例/詞型)
f) 詞頻的頻率(Frequencies of Frequencies):
詞頻(Word Frequency) 詞頻的頻率(Frequency of Frequency)
1 3993
2 1292
3 664
4 410
5 243
6 199
7 172
8 131
9 82
10 91
11-50 540
51-100 99
大多數詞在語料庫中僅出現一次(Most words in a corpus appear only once)!
未完待續:第二部分
附:課程及課件pdf下載MIT英文網頁地址:
http://people.csail.mit.edu/regina/6881/
注:本文遵照麻省理工學院開放式課程創作共享規范翻譯發布,轉載請注明出處“我愛自然語言處理”:www.52nlp.cn
from:http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/
MIT自然語言處理第二講:單詞計數(第二部分)
自然語言處理:單詞計數
Natural Language Processing: (Simple) Word Counting
作者:Regina Barzilay(MIT,EECS Department, November 15, 2004)
譯者:我愛自然語言處理(www.52nlp.cn ,2009年1月9日)
二、 齊夫定律(Zipf’s Law)
a) 在任何一個自然語言里第n個最常用的單詞的頻率與n近似成反比(The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n)。
b) 齊夫定律表示頻率(f)與排名?的關系如下(Zipf’s Law captures the relationship between frequency and rank):
f #= 1/r(注:這里不能使用公式編輯器,近似表示)
c) 存在一個常量k表示如下(There is a constant k such that):
f* r = k
d) 湯姆?索耶中的齊夫定律(Zipf’s Law in Tom Sawye)
單詞(word) 頻率(Freq.(f)) 排名(Rank (r)) f ? r
the 3332 1 3332
and 2972 2 5944
a 1775 3 5235
he 877 10 8770
but 410 20 8400
be 294 30 8820
there 222 40 8880
one 172 50 8600
about 158 60 9480
never 124 80 9920
Oh 116 90 10440
e) 譯者注:補充說明——Wiki中的齊夫定律
i. 從根本上講, 齊夫定律可以表述為在自然語言的語料庫里, 一個單詞出現的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作為任何與power law probability distributions有關的事物的參考。 這個”定律”是哈佛大學的語言學家George Kingsley Zipf 發表的。
ii. 比如,在Brown 語庫中,”the” 是最常見的單詞,它在這個語庫中出現了大約7%(10萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數為第二位的單詞”of”占了整個語庫中的3.5% (36411次), 之后的是”and” (28852次)。僅僅 135 個字匯就占了Brown 語庫的一半。
iii. 齊夫定律是一個實驗定律,而非理論定律。齊夫分布可以在很多現象中被觀察到。齊夫分布的在現實中的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標為log(排名)和log(頻率)。比如,”the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。最簡單的齊夫定律的例子是 “1/f function”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的1/2。第三常見的頻率是最常見的頻率的1/3。 第n常見的頻率是最常見頻率出現次數的1/n。然而,這并不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。然而,在一個廣域范圍內并且做出適當的近似,許多自然現象都符合齊夫定律。
f) 齊夫定律和省力原則(Zipf’s Law and Principle of Least Effort)
i. 人類行為和省力原則(Human Behavior and the Principle of Least Effort(Zipf)):
1. “… Zipf argues that he found a unifying principle, the Principle of Least Effort, which underlies essentially the entire human condition (the book even includes some questionable remarks on human sexuality!). The principle argues that people will act so as to minimize their probable average rate of work”. (Manning&Schutze, p.23)
ii. 注:北京大學姜望琪老師的《Zipf與省力原則》講得很好,部分摘錄如下:
1. 省力原則(the Principle of Least Effort),又稱經濟原則(the Economy Principle),可以概括為:以最小的代價換取最大的收益。這是指導人類行為的一條根本性原則。在現代學術界,第一個明確提出這條原則的是美國學者 George Kingsley Zipf。
2. George Kingsley Zipf1902年1月出生于一個德裔家庭(其祖父十九世紀中葉移居美國)。1924年,他以優異成績畢業于哈佛學院。1925年在德國波恩、柏林學習。1929年完成Relative Frequency as a Determinant of Phonetic Change,獲得哈佛比較語文學博士學位。然后,他開始在哈佛教授德語。1931年與Joyce Waters Brown結婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language:An Introduction to Dynamic Philology。1939年被聘為講師。1949年出版Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology。1950年9月因患癌癥病逝。
3. Zipf在1949年的書里提出了一條指導人類行為的基本原則——省力原則。Zipf在序言里指出,如果我們把人類行為純粹看作一種自然現象,如果我們像研究蜜蜂的社會行為、鳥類的筑巢習慣一樣研究人類行為,那么,我們就有可能揭示其背后的基本原則。這是他提出“省力原則”的大背景。當Zipf在眾多互不相干的現象里都發現類似Zipf定律的規律性以后,他就開始思考造成這種規律性的原因。這是導致他提出“省力原則”的直接因素。在開始正式論證以前,Zipf首先澄清了“省力原則”的字面意義。第一,這是一種平均量。一個人一生要經歷很多事情,他在一件事情上的省力可能導致在另一件事情上的費力。反過來,在一件事情上的費力,又可能導致在另一件事情上的省力。第二,這是一種概率。一個人很難在事先百分之百地肯定某種方法一定能讓他省力,他只能有一個大概的估計。因為用詞研究是理解整個言語過程的關鍵,而后者又是理解整個人類生態學的關鍵,他的具體論證從用詞經濟開始。Zipf認為,用詞經濟可以從兩個角度來討論:說話人的角度和聽話人的角度。從說話人的角度看,用一個詞表達所有的意義是最經濟的。這樣,說話人不需要花費氣力去掌握更多的詞匯,也不需要考慮如何從一堆詞匯中選擇一個合適的詞。這種“單一詞詞匯量”就像木工的一種多用工具,集鋸刨鉆錘于一身,可以滿足多種用途。但是,從聽話人角度看,這種“單一詞詞匯量”是最費力的。他要決定這個詞在某個特定場合到底是什么意思,而這幾乎是不可能的。相反,對聽話人來說,最省力的是每個詞都只有一個意義,詞匯的形式和意義之間完全一一對應。這兩種經濟原則是互相沖突、互相矛盾的。Zipf把它們叫做一條言語流中的兩股對立的力量:“單一化力量”(the Force of Unification)和“多樣化力量”(the Force of Diversification)。他認為,這兩股力量只有達成妥協,達成一種平衡,才能實現真正的省力。事實正像預計的那樣。請看Zipf的論證:假如只有單一化力量,那么任何語篇的單詞數量(number)都會是1,而它的出現次數(frequency)會是100%。另一方面,假如只有多樣化力量,那么每個單詞的出現次數都會接近1,而單詞總數量則由語篇的長度決定。這就是說, number和frequency是衡量詞匯平衡程度的兩個參數。
g) 其他規律(Other laws):
i. 詞義分布(Word sense distribution);
ii. 音位分布(Phonemes distribution);
iii. 詞共現模式(Word co-occurrence patterns);
h) 近似服從齊夫定律的例子(Examples of collections approximately obeying Zipf’s law):
i. 訪問網頁的頻率(Frequency of accesses to web pages);
ii. 居住點的規模(Sizes of settlements);
iii. 個人收入的分布(Income distribution amongst individuals);
iv. 地震的大小(Size of earthquakes);
v. 演奏中的音樂符號(Notes in musical performances);
未完待續:第三部分
附:課程及課件pdf下載MIT英文網頁地址:
http://people.csail.mit.edu/regina/6881/
注:本文遵照麻省理工學院開放式課程創作共享規范翻譯發布,轉載請注明出處“我愛自然語言處理”:www.52nlp.cn
from:http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/
總結
以上是生活随笔為你收集整理的MIT自然语言处理第二讲:单词计数(第一、二部分)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MIT自然语言处理第一讲:简介和概述(第
- 下一篇: MIT自然语言处理第二讲:单词计数(第三