當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

（机器学习周志华西瓜书南瓜书）吃瓜教程 Task01

發(fā)布時(shí)間：2023/12/15 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了（机器学习周志华西瓜书南瓜书）吃瓜教程 Task01 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.3 假設(shè)空間

學(xué)習(xí)過程：在所有假設(shè)空間中搜索，為了使搜索結(jié)果與訓(xùn)練集一致，可以修改或刪除假設(shè)。

那么西瓜的色澤、根蒂、敲聲就是樣本的屬性/特征，假設(shè)空間就是由數(shù)據(jù)集屬性/特征的所有值組成的空間。學(xué)習(xí)過程就是就是學(xué)習(xí)符合“好瓜”特征的值。

所有假設(shè)空間：
倘若“色澤”有3種取值，那樣本空間則為4，因?yàn)檫€包括任意值 *；
總假設(shè)空間還要+1，即加上空集，沒有“好瓜”。

假設(shè)空間搜索方式可以自頂向下或自底向上等，可能根據(jù)數(shù)據(jù)集情況而定。

1.4 歸納偏好

怎么判斷哪一個(gè)瓜“更好”，是盡可能特殊，還是盡可能一般？如果不選擇偏好，模型無法判斷更好，某個(gè)瓜時(shí)而是好瓜時(shí)而是壞瓜就沒有意義了。

常用奧卡姆剃刀原則：“若有多個(gè)假設(shè)與觀察一致，選擇最簡(jiǎn)單的”。即曲線越平滑的，方程次數(shù)越小的。

但是可能出現(xiàn)，訓(xùn)練集外的數(shù)據(jù)更符合復(fù)雜的B模型而不是簡(jiǎn)單的A模型。傳說中的No free lunch? 沒有免費(fèi)的午餐定理？若算法a在某些問題上比算法b好，那么必然存在另一些問題，在這些問題中b比a性能更優(yōu)。沒有單一的，通用的最佳機(jī)器學(xué)習(xí)算法，必須根據(jù)數(shù)據(jù)和背景知識(shí)來選擇合適的機(jī)器學(xué)習(xí)模型。

誤差公式：

E_ote (E: expectation期望；ote: off-training error訓(xùn)練集外誤差)

χ?X：訓(xùn)練集外樣本

Ⅱ(*) 指示函數(shù) (indicator function): 定義在某集合X上的函數(shù)，表示其中有哪些元素屬于某一子集A。則Ⅱ(h(x)≠f(x))為，假設(shè)與目標(biāo)函數(shù)不符，分類不正確。

公式解讀：
用訓(xùn)練集X訓(xùn)練出的模型a，和實(shí)際目標(biāo)函數(shù) f 的誤差 = 對(duì)于不同假設(shè)h，訓(xùn)練集外每個(gè)樣本的概率 $×\times$ 分類結(jié)果 $×\times$ 訓(xùn)練集訓(xùn)練a模型得到假設(shè)h的概率之和

其中，分類結(jié)果只有在不正確的時(shí)候，也就是h(x)≠f(x)的時(shí)候，指示函數(shù)Ⅱ(h(x)≠f(x))才為1。所以公式只會(huì)對(duì)分類不正確的概率求和。

2.1 經(jīng)驗(yàn)誤差與過擬合

欠擬合易解決，改善學(xué)習(xí)能力即可，如決策樹擴(kuò)展分支、神經(jīng)網(wǎng)絡(luò)增加訓(xùn)練輪數(shù)等；而過擬合只能緩解。通過評(píng)估，選擇泛化誤差最小的模型，即最優(yōu)模型（model selection）.

用測(cè)試誤差作為泛化誤差的近似，而不是等同于泛化誤差，所以文中假設(shè)測(cè)試集是獨(dú)立同分布采樣而得。于是為了采樣合理，提到不同測(cè)試集劃分方法，如“留出法” 、“交叉驗(yàn)證法” 和“自助法”。

訓(xùn)練集：用于訓(xùn)練模型
驗(yàn)證集：用于模型選擇和調(diào)參
測(cè)試集：用于評(píng)估模型實(shí)際使用時(shí)的泛化能力

2.3 性能度量

均方誤差公式解讀：m個(gè)預(yù)測(cè)值f(x_i)與實(shí)際值y_i誤差的平方和的均值

SSE, Sum of squared errors (和方差): 預(yù)測(cè)數(shù)據(jù)和原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)誤差的平方和（平方是為了忽略預(yù)測(cè)值-實(shí)際值差的正負(fù)號(hào)）
MSE, mean square error (均方方差)： $\over n$

若SSE是正方形，那MSE就是平均大小的正方形：

2.3.1 錯(cuò)誤率與精度

錯(cuò)誤率公式：

公式解讀： $\over 樣本總數(shù)$
對(duì)Ⅱ(f(x_i)≠y_i) 求和，即預(yù)測(cè)值f(x_i)不等于實(shí)際值y_i的個(gè)數(shù)，也就是預(yù)測(cè)錯(cuò)誤的個(gè)數(shù)。

精度公式：

公式解讀： $\over 樣本總數(shù)$ = 1- 錯(cuò)誤率

總結(jié)

以上是生活随笔為你收集整理的（机器学习周志华西瓜书南瓜书）吃瓜教程 Task01的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【老鸟进阶】deepfacelab合成参
下一篇：排序:归并排序(C)