當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

西瓜书学习笔记（一）

發布時間：2024/6/21 综合教程 54 生活家

生活随笔收集整理的這篇文章主要介紹了西瓜书学习笔记（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

序言

1、符號主義、貝葉斯派、聯結主義、進化主義、行為類比主義（機器學習的五大流派）：

參考：本書1.5節及https://blog.csdn.net/rogerchen1983/article/details/79681463；

第一章緒論

1、1997年，Tom Mitchell對機器學習的定義引入了三個概念：經驗Experience（E）、任務Task（T）、任務完成效果的衡量指標Performance measure（P）。將機器學習定義為：假設用P來評估計算機程序在某任務類T上的性能，若一個程序通過利用經驗E在T中任務上獲得了性能改善，則我們說關于T和P，該程序對E進行了學習。即在有了經驗E的幫助后，機器完成任務T的衡量指標P變得更好了。

2、奧卡姆剃刀原理：“如無必要，勿增實體”，即“簡單有效原理”。周志華西瓜書中描述為：“若有多個假設與觀察一致，則選擇最簡單的那個”。

3、沒有免費的午餐定理：沒有免費午餐定理(No Free Lunch，簡稱NFL)，該定理的結論是，由于對所有可能函數的相互補償，最優化算法的性能是等價的。即脫離具體的問題，空泛地談論“什么學習算法最好”毫無意義。

第二章模型評估與選擇

1、P問題、NP問題、NPC問題 NP hard問題

在計算機領域，一般可以將問題分為可解問題和不可解問題。不可解問題也可以分為兩類：一類如停機問題，的確無解；另一類雖然有解，但時間復雜度很高?？山鈫栴}也分為多項式問題(Polynomial Problem，P問題)和非確定性多項式問題(NondeterministicPolynomial Problem，NP問題)。

2.、評估模型泛化誤差的方法

　　2.1、留出法

　　2.2、交叉驗證法（k次交叉驗證、p次k折交叉驗證、留一法）

　　　　適用于數據量足夠的情況；

　　　　任何評估方法不一定比其他評估方法更準確，“沒有免費的午餐”定理對實驗評估方法同樣適用。

　　2.3、自助法

　　　　適用于數據集較小、難以進行有效劃分訓練/測試集的情況。能從初始數據中產生多個不同的訓練集，對集成學習有較大好處。但自助法產生的數據集改變了初始數據的分布，會引入估計偏差。

3.、評估不同模型泛化性能（分隔出驗證集進行調參，并在測試集上進行測試）

　　將樣本數據集分為測試集和訓練數據，訓練數據進一步分為訓練集和驗證集。使用驗證集進行模型的選擇和調參，使用測試集來估計模型在實際使用時的泛化能力。

　　訓練集、驗證集、測試集：

4、性能度量（評估模型的泛化性能）

　　4.1、回歸任務：將模型預測結果與真實值進行比較，計算“誤差”，如：

　　　　　　　　　?、伲簹W式、曼哈頓、切比雪夫距離、閔可夫斯基距離，如：回歸任務中常用均方誤差；

　　　　　　　　　?、冢河嘞揖嚯x；

　　　　　　　　　?、郏簼h明距離；

　　　　　　　　　　④：馬哈拉諾斯比斯距離；

　　　　　　　　　　⑤：相關系數；

　　4.2、分類任務： ①：錯誤率、精度；

　　　　　　　　　?、冢憾诸惾蝿眨夯煜仃?、查準率、查全率、P-R曲線（查準率-查全率曲線）圖、面積度量標準（度量學習器的查準率、查全率性能）、平衡點（BEP）性能度量標準、F1度量標準、Fβ度量標準；

　　　　　　　　　　③：多分類任務：兩兩類別之間組建n個混淆矩陣、宏查準率、宏查全率、宏F1、微查準率、微查全率、微F1；

　　　　　　　　　?、埽篟OC曲線（真正例TPR率-假正例FPR率曲線）、AUC面積度量法；

　　　　　　　　　　⑤：代價敏感錯誤率、代價曲線；

5、比較檢驗（以錯誤率為例，分析學習器的泛化性能是否良好？有多大的把握（顯著度）？）

　　5.1、概率論知識補充

　　常用離散型分布：單點分布（退化分布）、(0-1)分布（兩點分布或伯努利分布）、二項分布、負二項分布（帕斯卡分布）、幾何分布、超幾何分布、泊松分布；

　　常用連續型分布：均勻分布、正態分布（高斯分布）、對數正態分布、逆高斯分布、Γ分布( 伽瑪分布 ) 、指數分布（負指數分布）、卡方分布、非中心卡方分布、韋布爾分布、

拉普拉斯分布、瑞利分布、帕雷托分布、極值分布、邏輯斯蒂分布、β分布、柯西分布、t 分布（學生氏分布）、非中心 t 分布、F分布、非中心 F分布；

　　5.2、常用的分布

　　參考：https://zhuanlan.zhihu.com/p/47609519

　　5.3、常用的分布所解決的問題

　　大數定理：在隨機事件的大量重復出現中，往往呈現幾乎必然的規律，這個規律就是大數定律。

　　0-1分布（兩點分布或伯努利分布）、均勻分布：一次隨機事件發生某一結果的概率；

　　二項分布、超幾何分布：n次伯努利試驗（或有放回抽樣試驗）中事件A恰好發生k次的概率。超幾何分布為不放回抽樣時的概率；

　　幾何分布、負二項分布：前k-1次皆失敗，第k次成功的概率。負二項分布為r次失?。ǔ晒Γ┣俺晒Γㄊ。┑拇螖?；

　　泊松分布：特定時間里發生n個事件的機率。當二項分布的n很大而p很小時，泊松分布可作為二項分布的近似，其中λ為np。通常當n≧20,p≦0.05時，就可以用泊松分布近似計算。事實上，泊松分布正是由二項分布推導而來的；

　　指數分布：要等到一個隨機事件發生，需要經歷多久時間。給定一個某段時間內發生次數遵循泊松分布的事件，那么事件間隔時間遵循參數λ相同的指數分布。

　　正態分布：

　　　　中心極限定理：①：獨立同分布的中心極限定理：在實際工作中，只要n足夠大，便可以把獨立同分布的隨機變量之和當作正態變量；

　　　　　　　　　　　②：棣莫佛－拉普拉斯定理：正態分布是二項分布的極限分布；

　　　　　　　　　　　③：不同分布的中心極限定理：隨機變量如果是有大量獨立的而且均勻的隨機變量相加而成，那么它的分布將近似于正態分布。

　　t分布、卡方分布：t分布用于推斷正態分布的均值。檢驗基于觀測值和理論值的差（假定差遵循正態分布）的平方和；

　　伽瑪分布和貝塔分布：伽瑪分布可以用來建模接下來第n個事件發生前的時間。Beta分布是一個定義在[0,1]區間上的連續概率分布族，它有兩個正值參數，稱為形狀參數，一般用αα和ββ表示。在貝葉斯推斷中，Beta分布是Bernoulli、二項分布、負二項分布和幾何分布的共軛先驗分布；

　　5.4、常用區間估計與假設檢驗公式表

　　參考：https://wenku.baidu.com/view/1ae0a2b8a56e58fafab069dc5022aaea998f41ef.html

　　5.5、常用假設檢驗

　　參考：https://www.cnblogs.com/hust-chen/p/8643973.html

　　5.6、不同學習器，相同測試集，交叉驗證t檢驗

　　5.7、不同學習器，相同測試集，McNemar

　　5.8、不同學習器，不同測試集，Friedman檢驗與Nemenyi后驗

6、偏差與方差

　　偏差刻畫了學習算法本身的擬合能力；（欠擬合）；

　　方差刻畫了數據擾動所造成的影響；（過擬合）；

　　噪聲刻畫了學習問題本身的難易程度；

附錄常用概率分布間的關系

　　參考：http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

　　　　　http://www.math.wm.edu/~leemis/2008amstat.pdf

總結

以上是生活随笔為你收集整理的西瓜书学习笔记（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

综合教程

西瓜书学习笔记（一）

序言

第一章 緒論

第二章 模型評估與選擇

附錄 常用概率分布間的關系

總結

第一章緒論

第二章模型評估與選擇

附錄常用概率分布間的關系