复现经典:《统计学习方法》第13章 无监督学习概论
第13章 無監督學習概論
本文是李航老師的《統計學習方法》一書的代碼復現。作者:黃海廣
備注:代碼都可以在github中下載。我將陸續將代碼發布在公眾號“機器學習初學者”,可以在這個專輯在線閱讀。
1.機器學習或統計學習一般包括監督學習、無監督學習、強化學習。
無監督學習是指從無標注數據中學習模型的機器學習問題。無標注數據是自然得到的數據,模型表示數據的類別、轉換或概率無監督學習的本質是學習數據中的統計規律或潛在結構,主要包括聚類、降維、概率估計。
2.無監督學習可以用于對已有數據的分析,也可以用于對未來數據的預測。學習得到的模型有函數=,條件概率分布,或條件概率分布。
無監督學習的基本想法是對給定數據(矩陣數據)進行某種“壓縮”,從而找到數據的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構。可以考慮發掘數據的縱向結構,對應聚類。也可以考慮發掘數據的橫向結構,對應降維。還可以同時考慮發掘數據的縱向與橫向結構,對應概率模型估計。
3.聚類是將樣本集合中相似的樣本(實例)分配到相同的類,不相似的樣本分配到不同的類。聚類分硬聚類和軟聚類。聚類方法有層次聚類和均值聚類。
4.降維是將樣本集合中的樣本(實例)從高維空間轉換到低維空間。假設樣本原本存在于低維空間,或近似地存在于低維空間,通過降維則可以更好地表示樣本數據的結構,即更好地表示樣本之間的關系。降維有線性降維和非線性降維,降維方法有主成分分析。
5.概率模型估計假設訓練數據由一個概率模型生成,同時利用訓練數據學習概率模型的結構和參數。概率模型包括混合模型、率圖模型等。概率圖模型又包括有向圖模型和無向圖模型。
6.話題分析是文本分析的一種技術。給定一個文本集合,話題分析旨在發現文本集合中每個文本的話題,而話題由單詞的集合表示。話題分析方法有潛在語義分析、概率潛在語義分析和潛在狄利克雷分配。
7.圖分析的目的是發掘隱藏在圖中的統計規律或潛在結構。鏈接分析是圖分析的一種,主要是發現有向圖中的重要結點,包括 PageRank算法。
下載地址
https://github.com/fengdu78/lihang-code
參考資料:
[1] 《統計學習方法》: https://baike.baidu.com/item/統計學習方法/10430179
[2] 黃海廣: https://github.com/fengdu78
[3] ?github: https://github.com/fengdu78/lihang-code
[4] ?wzyonggege: https://github.com/wzyonggege/statistical-learning-method
[5] ?WenDesi: https://github.com/WenDesi/lihang_book_algorithm
[6] ?火燙火燙的: https://blog.csdn.net/tudaodiaozhale
[7] ?hktxt: https://github.com/hktxt/Learn-Statistical-Learning-Method
總結
以上是生活随笔為你收集整理的复现经典:《统计学习方法》第13章 无监督学习概论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 复现经典:《统计学习方法》第12章 监督
- 下一篇: 首发:李航老师的《统计学习方法》第二版的