NLP复习资料(1)-绪论、数学基础
生活随笔
收集整理的這篇文章主要介紹了
NLP复习资料(1)-绪论、数学基础
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
NLP復習資料-緒論、數學基礎
- 1.緒論
- 2.數學基礎
- 2.1信息論基礎:
- 2.2應用實例:詞匯消歧
國科大,宗老師《自然語言處理》課程復習筆記,個人整理,僅供參考。
1.緒論
1. 語言學、計算語言學、自然語言理解、自然語言處理、中文信息系統這幾個概念
2. HLT人類語言技術研究內容:機器翻譯、信息檢索、自動文摘、問答系統、信息過濾 、信息抽取、文檔分類、情感分類、文字編輯和自動校對、語言教學、文字識別、語音識別、文語轉換/語音合成、說話人識別/認同/驗證
3. P57基本問題:形態學問題、句法問題、語義問題、語用問題、語音學問題
4. P71 主要困哪:大量歧義現象、未知語言現象不可預測性、始終面臨數據不充分性、語言知識表達的復雜性、機器翻譯中映射單元不對等性
5. P77基本研究方法:理性主義(基于規則的方法),經驗主義(基于統計的方法)
2.數學基礎
2.1信息論基礎:
熵H(X):描述隨機變量的不確定度。
聯合熵H(X,Y):描述兩個隨機變量一起的不確定度。
條件熵H(X|Y):已知一個隨機變量的基礎下,另一個隨機變量的熵
連鎖規則:H(X,Y)=H(X)+H(Y|X)
相對熵D(p||q)(KL散度):衡量兩個概率分布之間的差距
交叉熵H(X,q):模型分布與真實概率分布之間的差異
困惑度PPq:用交叉熵來定義,多一個冪次P35
互信息I(X;Y)=H(X)-H(X|Y)不確定度的減少量,用于衡量兩個漢字的結合程度(P40)
雙字耦合度P42:用于衡量兩個漢字的結合程度(更佳)
2.2應用實例:詞匯消歧
貝葉斯分類器P55
最大熵消除歧義:P61只是推導了p(a|b)的概率,(并沒有說明和最大熵的關系。)
總結
以上是生活随笔為你收集整理的NLP复习资料(1)-绪论、数学基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Python Cookbook 3rd
- 下一篇: 大数据学习(2)-Hadoop的介绍与安