日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

读宗成庆老师著统计自然语言处理书笔记整理(1)

發布時間:2023/12/9 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读宗成庆老师著统计自然语言处理书笔记整理(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

自然語言處理(natural language processing,NLP)。

(一)研究的內容:

1、機器翻譯:實現一種語言到另一種語言的自動翻譯。
2、自動文摘:將原文檔的主要內容和含義自動歸納、提煉出來,形成摘要或縮寫。
3、信息檢索:也稱情報檢索,就是利用計算機系統從海量文檔中找到符合用戶需要的相關文檔。
4、文檔分類:也稱文本分類或信息分類,就是利用計算機系用對大量的文檔按照一定的分類標準(例如根據主題或內容劃分等)實現自動歸類。近年來情感分類技術成為本領域研究的熱點,公司可以利用該技術了解客戶對產品的評價,政府部門可以通過分析網民對某一事件、政策法規或社會現象的評論,實時了解百姓的態度
5、問答系統:通過計算機系統對用戶提出的問題的理解,利用自動推理的手段,在有關知識資源仲自動求解答案并作出相應的問答。問答技術有時與語音技術和多模態輸入輸出技術以及人機交互技術等技術相結合,構成人機對話系統。
6、信息過濾:通過計算機系統自動識別和過濾那些滿足特定條件的文檔信息,通常指網絡有害信息的自動識別和過濾,主要用于信息安全和防護、網絡內容管理等。
7、信息抽取:指從文本中抽取特定的時間或事實信息,有時候又稱事件抽取,例如從時事新聞報道中抽取出某一恐怖事件的基本信息等。信息抽取與信息檢索不同,信息抽取直接從自然語言文本中抽取信息框架,一般是用戶感興趣的事實信息,而信息檢索主要是從海量文檔集合中找到與用戶需求相關的文檔列表。
8、文本挖掘:又稱數據挖掘,從文本(多指網絡文本)中獲取高質量信息的過程。文本挖掘技術一般涉及文本分類、文本聚類、概念或實體抽取、粒度分類、情感分析、自動文摘和實體關系建模等多種技術。
9、輿情分析:由于網上的信息量巨大,僅僅依靠人工的方法難以應對海量信息的收集和處理,需要加強相關信息技術的研究,形成一套自動化的網絡輿情分析系統,及時應對網絡輿情。
10、隱喻計算:隱喻就是用乙事物或其某些特征來描述甲事物的語言現象
11、文字編輯和自動校對:對文字拼寫、用詞、甚至語法、文檔格式等進行自動檢查、校對和編排。
12、作文自動評分、光讀字符識別、語音識別、文語轉換、說話人識別/認證/驗證等。

(二)預備知識

1、概率論

1.1概率
1.2最大似然估計
1.3條件概率
1.4貝葉斯法則
1.5隨機變量
1.6二項式分布
1.7聯合概率分布和條件概率分布
1.8貝葉斯決策理論
1.9期望和方差

2、信息論基本概念

2.1熵

又稱為自信息,可以視為描述一個隨機變量的不確定性的數量,它表示信源X每發一個符號(不論發什么符號)所提供的平均信息量,一個隨機變量的熵越大,他的不確定性越大,那么正確估計其值的可能性就越小。越不確定的隨機變量越需要大的信息量用以確定其值。

2.2聯合熵和條件熵

聯合熵H(X,Y)實際上是描述一對隨機變量平均所需要的信息量
給定隨機變量X的情況下,隨艦變量Y的條件熵H(Y|X)
熵的連鎖反應:
H(X|Y) = H(X)+H(Y|X)

2.3互信息

根據熵的連鎖規則
H(X|Y) = H(X)+H(Y|X) = H(Y)+H(X|Y)
因此
H(X)-H(X|Y)=H(Y)-H(Y|X)
這個差叫做X和Y的互信息,極坐I(X;Y),或者定義為
如果(X,Y)~p(x,y),則X,Y直接的互信息
I(X;Y) = H(X)-H(X|Y)
I(X;Y)反映的是在知道了Y的值以后X的不確定性的減少的確定量,可以理解為Y的值透露了多少關于X的信息量。
兩個完全相互依賴的變量之間的互信息不是一個常量,而取決于他們的熵。如果I(X;Y)大于等于0,表明X和Y是高度相關的,I(X;Y)等于0,表明X和Y是相互獨立的,如果小于0,表明Y的出現不但沒有使得X的不確定性減少,反而增大了X的不確定性,平均互信息量是非負的。

2.4相對熵

又稱kullback-Leibler差異,簡稱kl距離,是衡量相同時間空間里兩個概率分布相對差距的測度。顯然,當兩個隨機分布完全相同時,其相對熵為0.當兩個隨機分布的差別增加時,其相對熵期望值也增大。
互信息實際上就是衡量一個聯合分布與獨立性差距多大的測度

2.5交叉熵

用來衡量估計模型與真實概率分布之間差異情況的。交叉熵與模型在測試語料中分配給每個單詞的平均概率所表達的含義正好相反,模型的交叉熵越小,模型的表現越好。

2.6困惑度

在設計語言模型時,我們通常用困惑度來代替交叉熵衡量語言模型好壞。
語言模型設計任務就是尋找困惑度最小的模型,使其最接近真實語言的情況,在自然語言處理中,我們所說的語言模型的困惑度通常是指語言模型對于測試數據的困惑度,一般情況下把所有數據分成兩部分,一部分作為訓練數據,用于估計模型的參數,另一部分數據作為測試數據,用于評估語言模型的質量。

2.7噪聲信道模型

信息熵可以定量地估計信源每發出一個符號所提供的平均信息量,但對于通信系統來說,最根本的問題還是在于如何定量地估算從信道輸出中獲取多少信息量。
噪聲信道模型的目標是優化在噪聲信道中信號傳輸的吞吐量和準確率,其基本假設是一個信道的輸出以一定概率依賴于輸入

3、支持向量機

支持向量機(support vector machine,SVM)是在高維特征空間使用線性函數假設空間的學習系統,在分類方面具有良好的性能。
在感知器模型中,我們可以找到多個可以分類的超平面將數據分開,并且優化時希望所有的點都離超平面盡可能的遠,但是實際上離超平面足夠遠的點基本上都是被正確分類的,所以這個是沒有意義的;反而比較關心那些離超平面很近的點,這些點比較容易分錯。所以說我們只要讓離超平面比較近的點盡可能的遠離這個超平面,那么我們的模型分類效果應該就會比較不錯。SVM其實就是這個思想。
支持向量(Support Vector):離分割超平面最近的那些點叫做支持向量。

3.1線性分類

在數據集中,如果可以找出一個超平面,將兩組數據分開,那么這個數據集叫做線性可分數據。

3.2線性不可分

在數據集中,沒法找出一個超平面,能夠將兩組數據分開,那么這個數據集就叫做線性不可分數據。

3.3構造核函數

核函數是特征轉換函數。
1、線性核函數:這是最簡單的核函數,它直接計算兩個輸入特征向量的內積。

  • 優點:簡單高效,結果易解釋,總能生成一個最簡潔的線性分割超平面
  • 缺點:只適用線性可分的數據集
    2、多項式核函數:通過多項式來作為特征映射函數
  • 優點:可以擬合出復雜的分割超平面。
  • 缺點:參數太多。有γ,c,nγ,c,n三個參數要選擇,選擇起來比較困難;另外多項式的階數不宜太高否則會給模型求解帶來困難。

3、高斯核函數:

  • 優點:可以把特征映射到無限多維,并且沒有多項式計算那么困難,參數也比較好選擇。
  • 缺點:不容易解釋,計算速度比較慢,容易過擬合。

總結

以上是生活随笔為你收集整理的读宗成庆老师著统计自然语言处理书笔记整理(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久国产精品无码网站 | 国产精选自拍 | 中文字幕日韩一区二区三区不卡 | 久草日韩| 日韩特级黄色片 | 怡红院一区二区三区 | 欧美顶级少妇做爰 | 婷婷综合视频 | 中文字幕一区二区三区免费看 | 国产精品一区二区黑人巨大 | 黄色在线免费看 | 黄色免费网站 | www.婷婷.com| 亚欧精品在线 | 亚洲第一成人网站 | 中字幕一区二区三区乱码 | 国产激情a | 国产欧美日本 | 欧洲高潮三级做爰 | 色资源av| 欧美日韩国产图片 | 波多野结衣丝袜 | 成人免费在线电影 | 精品国产一区二区三区性色 | 在线观看的免费 | av黄| 国产美女无遮挡网站 | 韩国女主播一区 | 久久国 | 欧美成人免费播放 | 另类亚洲色图 | 国产福利在线 | av一级在线观看 | 欧美亚洲在线观看 | 日韩久久久久久久久 | 玖玖综合网 | 一女二男一黄一片 | 亚洲第一天堂 | 外国毛片 | 内射中出日韩无国产剧情 | 中文字幕精品无码亚 | 黄色片成人| 人操人视频| 日韩一区二区视频在线 | 亚洲男人网| 五月99久久婷婷国产综合亚洲 | av怡红院 | 亚洲人视频 | 黄色在线免费观看网站 | 亚洲女人毛茸茸 | 人人舔人人插 | 亚洲大胆视频 | 亚洲mv一区 | 国产日韩欧美日韩大片 | 亚洲国产一区二区三区四区 | 黄色免费在线观看视频 | 在线免费视频观看 | 熟妇的味道hd中文字幕 | 草草福利影院 | 西野翔夫の目の前で犯在线 | 精品123区 | 根深蒂固在线观看 | 福利视频在线免费观看 | 亚洲精品97久久中文字幕 | 久久成人高清 | 亚洲人妻电影一区 | 日韩精品在线观看一区 | 成人一区三区 | 亚洲夜夜夜 | 九九九久久久精品 | 亚洲 美腿 欧美 偷拍 | 黄色网页在线免费观看 | 爱情岛论坛永久入址测速 | 精品一区日韩 | 500福利视频导航 | 私拍在线 | 国产又粗又猛又爽又黄视频 | 狠狠操夜夜操 | 亚洲va欧美va | 超碰caopeng| 久久av红桃一区二区小说 | 免费看的黄网站 | 欧美精品一区二区三区久久久竹菊 | 黄色大片毛片 | 国产精品久久久久久久免费大片 | 国产 欧美 日韩 一区 | 美女福利视频导航 | 熟妇人妻一区二区三区四区 | 亚洲国产精品无码观看久久 | 精品国产一区二区三区久久久蜜臀 | 人人澡人人爱 | www.av成人 | 激情视频网站在线观看 | 91porn破解版| 国产明星换脸xxxx色视频 | 久久久精品国产 | 一边顶弄一边接吻 | 男女视频一区 | 上海毛片 |