(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01
目錄
- 1.3 假設(shè)空間
- 1.4 歸納偏好
- 2.1 經(jīng)驗(yàn)誤差與過擬合
- 2.3 性能度量
- 2.3.1 錯(cuò)誤率與精度
1.3 假設(shè)空間
學(xué)習(xí)過程:在所有假設(shè)空間中搜索,為了使搜索結(jié)果與訓(xùn)練集一致,可以修改或刪除假設(shè)。
那么西瓜的色澤、根蒂、敲聲就是樣本的屬性/特征,假設(shè)空間就是由數(shù)據(jù)集屬性/特征的所有值組成的空間。學(xué)習(xí)過程就是就是學(xué)習(xí)符合“好瓜”特征的值。
所有假設(shè)空間:
倘若“色澤”有3種取值,那樣本空間則為4,因?yàn)檫€包括任意值 *;
總假設(shè)空間還要+1,即加上空集,沒有“好瓜”。
假設(shè)空間搜索方式可以自頂向下或自底向上等,可能根據(jù)數(shù)據(jù)集情況而定。
1.4 歸納偏好
怎么判斷哪一個(gè)瓜“更好”,是盡可能特殊,還是盡可能一般? 如果不選擇偏好,模型無法判斷更好,某個(gè)瓜時(shí)而是好瓜時(shí)而是壞瓜就沒有意義了。
常用奧卡姆剃刀原則:“若有多個(gè)假設(shè)與觀察一致,選擇最簡(jiǎn)單的”。即曲線越平滑的,方程次數(shù)越小的。
但是可能出現(xiàn),訓(xùn)練集外的數(shù)據(jù)更符合復(fù)雜的B模型而不是簡(jiǎn)單的A模型。傳說中的No free lunch? 沒有免費(fèi)的午餐定理?若算法a在某些問題上比算法b好,那么必然存在另一些問題,在這些問題中b比a性能更優(yōu)。沒有單一的,通用的最佳機(jī)器學(xué)習(xí)算法,必須根據(jù)數(shù)據(jù)和背景知識(shí)來選擇合適的機(jī)器學(xué)習(xí)模型。
誤差公式:
公式解讀:
用訓(xùn)練集X訓(xùn)練出的模型a,和實(shí)際目標(biāo)函數(shù) f 的誤差 = 對(duì)于不同假設(shè)h,訓(xùn)練集外每個(gè)樣本的概率 ×\times× 分類結(jié)果 ×\times× 訓(xùn)練集訓(xùn)練a模型得到假設(shè)h的概率之和
其中,分類結(jié)果只有在不正確的時(shí)候,也就是h(x)≠f(x)的時(shí)候,指示函數(shù)Ⅱ(h(x)≠f(x))才為1。所以公式只會(huì)對(duì)分類不正確的概率求和。
2.1 經(jīng)驗(yàn)誤差與過擬合
欠擬合易解決,改善學(xué)習(xí)能力即可,如決策樹擴(kuò)展分支、神經(jīng)網(wǎng)絡(luò)增加訓(xùn)練輪數(shù)等; 而過擬合只能緩解。 通過評(píng)估,選擇泛化誤差最小的模型,即最優(yōu)模型(model selection).
用測(cè)試誤差作為泛化誤差的近似,而不是等同于泛化誤差,所以文中假設(shè)測(cè)試集是獨(dú)立同分布采樣而得。于是為了采樣合理,提到不同測(cè)試集劃分方法,如“留出法” 、“交叉驗(yàn)證法” 和“自助法”。
訓(xùn)練集:用于訓(xùn)練模型
驗(yàn)證集:用于模型選擇和調(diào)參
測(cè)試集:用于評(píng)估模型實(shí)際使用時(shí)的泛化能力
2.3 性能度量
均方誤差公式解讀:m個(gè)預(yù)測(cè)值f(xi)與實(shí)際值yi誤差的平方和的均值
SSE, Sum of squared errors (和方差): 預(yù)測(cè)數(shù)據(jù)和原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)誤差的平方和(平方是為了忽略預(yù)測(cè)值-實(shí)際值差的正負(fù)號(hào))
MSE, mean square error (均方方差):SSEnSSE \over nnSSE?
若SSE是正方形,那MSE就是平均大小的正方形:
2.3.1 錯(cuò)誤率與精度
錯(cuò)誤率公式:
公式解讀:預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)樣本總數(shù)預(yù)測(cè)錯(cuò)誤的個(gè)數(shù) \over 樣本總數(shù)樣本總數(shù)預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)?
對(duì)Ⅱ(f(xi)≠yi) 求和,即預(yù)測(cè)值f(xi)不等于實(shí)際值yi的個(gè)數(shù),也就是預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)。
精度公式:
公式解讀:預(yù)測(cè)正確的個(gè)數(shù)樣本總數(shù)預(yù)測(cè)正確的個(gè)數(shù) \over 樣本總數(shù)樣本總數(shù)預(yù)測(cè)正確的個(gè)數(shù)? = 1- 錯(cuò)誤率
總結(jié)
以上是生活随笔為你收集整理的(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【老鸟进阶】deepfacelab合成参
- 下一篇: 排序:归并排序(C)