读宗成庆老师著统计自然语言处理书笔记整理(1)
自然語言處理(natural language processing,NLP)。
(一)研究的內(nèi)容:
1、機(jī)器翻譯:實(shí)現(xiàn)一種語言到另一種語言的自動(dòng)翻譯。
2、自動(dòng)文摘:將原文檔的主要內(nèi)容和含義自動(dòng)歸納、提煉出來,形成摘要或縮寫。
3、信息檢索:也稱情報(bào)檢索,就是利用計(jì)算機(jī)系統(tǒng)從海量文檔中找到符合用戶需要的相關(guān)文檔。
4、文檔分類:也稱文本分類或信息分類,就是利用計(jì)算機(jī)系用對(duì)大量的文檔按照一定的分類標(biāo)準(zhǔn)(例如根據(jù)主題或內(nèi)容劃分等)實(shí)現(xiàn)自動(dòng)歸類。近年來情感分類技術(shù)成為本領(lǐng)域研究的熱點(diǎn),公司可以利用該技術(shù)了解客戶對(duì)產(chǎn)品的評(píng)價(jià),政府部門可以通過分析網(wǎng)民對(duì)某一事件、政策法規(guī)或社會(huì)現(xiàn)象的評(píng)論,實(shí)時(shí)了解百姓的態(tài)度
5、問答系統(tǒng):通過計(jì)算機(jī)系統(tǒng)對(duì)用戶提出的問題的理解,利用自動(dòng)推理的手段,在有關(guān)知識(shí)資源仲自動(dòng)求解答案并作出相應(yīng)的問答。問答技術(shù)有時(shí)與語音技術(shù)和多模態(tài)輸入輸出技術(shù)以及人機(jī)交互技術(shù)等技術(shù)相結(jié)合,構(gòu)成人機(jī)對(duì)話系統(tǒng)。
6、信息過濾:通過計(jì)算機(jī)系統(tǒng)自動(dòng)識(shí)別和過濾那些滿足特定條件的文檔信息,通常指網(wǎng)絡(luò)有害信息的自動(dòng)識(shí)別和過濾,主要用于信息安全和防護(hù)、網(wǎng)絡(luò)內(nèi)容管理等。
7、信息抽取:指從文本中抽取特定的時(shí)間或事實(shí)信息,有時(shí)候又稱事件抽取,例如從時(shí)事新聞報(bào)道中抽取出某一恐怖事件的基本信息等。信息抽取與信息檢索不同,信息抽取直接從自然語言文本中抽取信息框架,一般是用戶感興趣的事實(shí)信息,而信息檢索主要是從海量文檔集合中找到與用戶需求相關(guān)的文檔列表。
8、文本挖掘:又稱數(shù)據(jù)挖掘,從文本(多指網(wǎng)絡(luò)文本)中獲取高質(zhì)量信息的過程。文本挖掘技術(shù)一般涉及文本分類、文本聚類、概念或?qū)嶓w抽取、粒度分類、情感分析、自動(dòng)文摘和實(shí)體關(guān)系建模等多種技術(shù)。
9、輿情分析:由于網(wǎng)上的信息量巨大,僅僅依靠人工的方法難以應(yīng)對(duì)海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情。
10、隱喻計(jì)算:隱喻就是用乙事物或其某些特征來描述甲事物的語言現(xiàn)象
11、文字編輯和自動(dòng)校對(duì):對(duì)文字拼寫、用詞、甚至語法、文檔格式等進(jìn)行自動(dòng)檢查、校對(duì)和編排。
12、作文自動(dòng)評(píng)分、光讀字符識(shí)別、語音識(shí)別、文語轉(zhuǎn)換、說話人識(shí)別/認(rèn)證/驗(yàn)證等。
(二)預(yù)備知識(shí)
1、概率論
1.1概率
1.2最大似然估計(jì)
1.3條件概率
1.4貝葉斯法則
1.5隨機(jī)變量
1.6二項(xiàng)式分布
1.7聯(lián)合概率分布和條件概率分布
1.8貝葉斯決策理論
1.9期望和方差
2、信息論基本概念
2.1熵
又稱為自信息,可以視為描述一個(gè)隨機(jī)變量的不確定性的數(shù)量,它表示信源X每發(fā)一個(gè)符號(hào)(不論發(fā)什么符號(hào))所提供的平均信息量,一個(gè)隨機(jī)變量的熵越大,他的不確定性越大,那么正確估計(jì)其值的可能性就越小。越不確定的隨機(jī)變量越需要大的信息量用以確定其值。
2.2聯(lián)合熵和條件熵
聯(lián)合熵H(X,Y)實(shí)際上是描述一對(duì)隨機(jī)變量平均所需要的信息量
給定隨機(jī)變量X的情況下,隨艦變量Y的條件熵H(Y|X)
熵的連鎖反應(yīng):
H(X|Y) = H(X)+H(Y|X)
2.3互信息
根據(jù)熵的連鎖規(guī)則
H(X|Y) = H(X)+H(Y|X) = H(Y)+H(X|Y)
因此
H(X)-H(X|Y)=H(Y)-H(Y|X)
這個(gè)差叫做X和Y的互信息,極坐I(X;Y),或者定義為
如果(X,Y)~p(x,y),則X,Y直接的互信息
I(X;Y) = H(X)-H(X|Y)
I(X;Y)反映的是在知道了Y的值以后X的不確定性的減少的確定量,可以理解為Y的值透露了多少關(guān)于X的信息量。
兩個(gè)完全相互依賴的變量之間的互信息不是一個(gè)常量,而取決于他們的熵。如果I(X;Y)大于等于0,表明X和Y是高度相關(guān)的,I(X;Y)等于0,表明X和Y是相互獨(dú)立的,如果小于0,表明Y的出現(xiàn)不但沒有使得X的不確定性減少,反而增大了X的不確定性,平均互信息量是非負(fù)的。
2.4相對(duì)熵
又稱kullback-Leibler差異,簡(jiǎn)稱kl距離,是衡量相同時(shí)間空間里兩個(gè)概率分布相對(duì)差距的測(cè)度。顯然,當(dāng)兩個(gè)隨機(jī)分布完全相同時(shí),其相對(duì)熵為0.當(dāng)兩個(gè)隨機(jī)分布的差別增加時(shí),其相對(duì)熵期望值也增大。
互信息實(shí)際上就是衡量一個(gè)聯(lián)合分布與獨(dú)立性差距多大的測(cè)度
2.5交叉熵
用來衡量估計(jì)模型與真實(shí)概率分布之間差異情況的。交叉熵與模型在測(cè)試語料中分配給每個(gè)單詞的平均概率所表達(dá)的含義正好相反,模型的交叉熵越小,模型的表現(xiàn)越好。
2.6困惑度
在設(shè)計(jì)語言模型時(shí),我們通常用困惑度來代替交叉熵衡量語言模型好壞。
語言模型設(shè)計(jì)任務(wù)就是尋找困惑度最小的模型,使其最接近真實(shí)語言的情況,在自然語言處理中,我們所說的語言模型的困惑度通常是指語言模型對(duì)于測(cè)試數(shù)據(jù)的困惑度,一般情況下把所有數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練數(shù)據(jù),用于估計(jì)模型的參數(shù),另一部分?jǐn)?shù)據(jù)作為測(cè)試數(shù)據(jù),用于評(píng)估語言模型的質(zhì)量。
2.7噪聲信道模型
信息熵可以定量地估計(jì)信源每發(fā)出一個(gè)符號(hào)所提供的平均信息量,但對(duì)于通信系統(tǒng)來說,最根本的問題還是在于如何定量地估算從信道輸出中獲取多少信息量。
噪聲信道模型的目標(biāo)是優(yōu)化在噪聲信道中信號(hào)傳輸?shù)耐掏铝亢蜏?zhǔn)確率,其基本假設(shè)是一個(gè)信道的輸出以一定概率依賴于輸入
。
3、支持向量機(jī)
支持向量機(jī)(support vector machine,SVM)是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),在分類方面具有良好的性能。
在感知器模型中,我們可以找到多個(gè)可以分類的超平面將數(shù)據(jù)分開,并且優(yōu)化時(shí)希望所有的點(diǎn)都離超平面盡可能的遠(yuǎn),但是實(shí)際上離超平面足夠遠(yuǎn)的點(diǎn)基本上都是被正確分類的,所以這個(gè)是沒有意義的;反而比較關(guān)心那些離超平面很近的點(diǎn),這些點(diǎn)比較容易分錯(cuò)。所以說我們只要讓離超平面比較近的點(diǎn)盡可能的遠(yuǎn)離這個(gè)超平面,那么我們的模型分類效果應(yīng)該就會(huì)比較不錯(cuò)。SVM其實(shí)就是這個(gè)思想。
支持向量(Support Vector):離分割超平面最近的那些點(diǎn)叫做支持向量。
3.1線性分類
在數(shù)據(jù)集中,如果可以找出一個(gè)超平面,將兩組數(shù)據(jù)分開,那么這個(gè)數(shù)據(jù)集叫做線性可分?jǐn)?shù)據(jù)。
3.2線性不可分
在數(shù)據(jù)集中,沒法找出一個(gè)超平面,能夠?qū)山M數(shù)據(jù)分開,那么這個(gè)數(shù)據(jù)集就叫做線性不可分?jǐn)?shù)據(jù)。
3.3構(gòu)造核函數(shù)
核函數(shù)是特征轉(zhuǎn)換函數(shù)。
1、線性核函數(shù):這是最簡(jiǎn)單的核函數(shù),它直接計(jì)算兩個(gè)輸入特征向量的內(nèi)積。
- 優(yōu)點(diǎn):簡(jiǎn)單高效,結(jié)果易解釋,總能生成一個(gè)最簡(jiǎn)潔的線性分割超平面
- 缺點(diǎn):只適用線性可分的數(shù)據(jù)集
2、多項(xiàng)式核函數(shù):通過多項(xiàng)式來作為特征映射函數(shù) - 優(yōu)點(diǎn):可以擬合出復(fù)雜的分割超平面。
- 缺點(diǎn):參數(shù)太多。有γ,c,nγ,c,n三個(gè)參數(shù)要選擇,選擇起來比較困難;另外多項(xiàng)式的階數(shù)不宜太高否則會(huì)給模型求解帶來困難。
3、高斯核函數(shù):
- 優(yōu)點(diǎn):可以把特征映射到無限多維,并且沒有多項(xiàng)式計(jì)算那么困難,參數(shù)也比較好選擇。
- 缺點(diǎn):不容易解釋,計(jì)算速度比較慢,容易過擬合。
總結(jié)
以上是生活随笔為你收集整理的读宗成庆老师著统计自然语言处理书笔记整理(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java里面的 |运算符_Java 中
- 下一篇: c 向html页面传值,html页面之间