【人工智能】机器学习西瓜书11——经验误差与过拟合,模型评估的方法,均方误差,错误率与精度,最优阈值
機(jī)器學(xué)習(xí)——西瓜書從頭讀到尾11
- 一種訓(xùn)練集一種算法
- 經(jīng)驗誤差與過擬合
- 模型評估的方法
- 訓(xùn)練集
- 測試集保留方法
- 驗證集
- 性能測量
- 均方誤差
- 錯誤率與精度
- 查準(zhǔn)率查全率
- 最優(yōu)閾值
- 一個二分類(一張PR)
- n個二分類實現(xiàn)的多分類
我們按訓(xùn)練集預(yù)算法的關(guān)系進(jìn)行劃分。
一種訓(xùn)練集一種算法
經(jīng)驗誤差與過擬合
- 誤差: 學(xué)習(xí)器的實際預(yù)測輸出與樣本的真實輸出之間的差異;比如一組數(shù)據(jù) 1,2,4,5.使用閾值3,將其分為兩類。假設(shè)學(xué)習(xí)器的分類結(jié)果為 1和 2,4, 5 。但是實際的結(jié)果為1,2,和4,5,分錯的2就是誤差。
- 經(jīng)驗誤差:訓(xùn)練集的誤差,也叫訓(xùn)練誤差。相對于經(jīng)驗誤差的,還有大家經(jīng)常遇到的泛化誤差,泛化誤差是在新樣本(測試集)的誤差。
- 過擬合:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)的“太好”了的時候,很可能已經(jīng)把訓(xùn)練樣本特點當(dāng)作了潛在樣本都會具有的一般性質(zhì),這會導(dǎo)致泛化性能下降。與過擬合相對的是“欠擬合”,這是指對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。
模型評估的方法
訓(xùn)練集
測試集保留方法
- 留出法:三七或二八,但注意訓(xùn)練集測試集同分布,或多次隨機(jī)劃分訓(xùn)練多個模型取平均值
- k折交叉驗證法:將訓(xùn)練集隨機(jī)等分為k份,取其中一份為驗證集評估模型,其余k-1份為訓(xùn)練集訓(xùn)練模型,重復(fù)該步驟k次,每次都取一份不同的子集為驗證集,最終得到k個不同的模型(不是對一個模型迭代k次)和k個評分,綜合這k個模型的表現(xiàn)(平均得分或其他)評估模型在當(dāng)前問題中的優(yōu)劣。
- 自助法:原數(shù)據(jù)集DDD是一個包含m個樣本的數(shù)據(jù)集,通過自助法有放回的重復(fù)抽樣m次,每次抽取1個數(shù)據(jù),放到D′D'D′中,D′D'D′中也有mmm個樣本,同時,原來的數(shù)據(jù)集D中不被D’包含的數(shù)據(jù)作為驗證集。到底會有多少數(shù)據(jù)作為驗證集呢?周老師給出了原數(shù)據(jù)集DDD一次也未被抽中的數(shù)據(jù)的概率為:
lim?m→∞(1?1m)m→1e≈0.368\lim\limits_{m \to \infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx0.368m→∞lim?(1?m1?)m→e1?≈0.368理論狀態(tài)下,驗證集為0.368?m0.368*m0.368?m條數(shù)據(jù)
適用:數(shù)據(jù)集較小難以劃分時。缺點:改變初始分布,引入估計誤差。
驗證集
調(diào)參用,調(diào)參難度大,很多參數(shù)人為規(guī)定,為了調(diào)參,常加一個數(shù)據(jù)集進(jìn)行驗證,訓(xùn)練及訓(xùn)練,驗證集看結(jié)果,調(diào)參,再訓(xùn)練…
性能測量
均方誤差
在預(yù)測任務(wù)中,給定樣例集D=(x1,y1),(x2,y2),...,(xm,ym)D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}D=(x1?,y1?),(x2?,y2?),...,(xm?,ym?)中是示例xix_ixi?的真實標(biāo)記,要評估學(xué)習(xí)器fff的性能,就要把學(xué)習(xí)器預(yù)測結(jié)果f(x)f(x)f(x)與真實標(biāo)記yyy進(jìn)行比較
{均方誤差:E(f:D)=1m∑i=1m(f(xi)?yi)2對于數(shù)據(jù)分布D和概率密度函數(shù)p(?):E(f:D)=∫x~D(f(xi)?yi)2p(x)dx\left\{ \begin{aligned} & 均方誤差:E(f:D)=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &對于數(shù)據(jù)分布D和概率密度函數(shù)p(\cdot ):E(f:D)=\int_{x\sim D}(f(x_i)-y_i)^2p(x)dx \end{aligned} \right. ???????????均方誤差:E(f:D)=m1?i=1∑m?(f(xi?)?yi?)2對于數(shù)據(jù)分布D和概率密度函數(shù)p(?):E(f:D)=∫x~D?(f(xi?)?yi?)2p(x)dx?
錯誤率與精度
查準(zhǔn)率查全率
查準(zhǔn)率:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP?
你認(rèn)為的好瓜里面真的是好瓜的比例。
查全率:R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP?
我預(yù)測的里面好瓜占真正好瓜的比例
以查準(zhǔn)率為縱軸、查全率為橫軸作圖 ,就得到
了查準(zhǔn)率-查全率曲線,簡稱 “P-R曲線”
若一個學(xué)習(xí)器的 P-R 曲線被另一個學(xué)習(xí)器的曲線完全"包住 " , 則可斷言后者的性能優(yōu)于前者。但往往學(xué)習(xí)器的 P-R 曲線發(fā)生了交叉難以斷言兩者孰優(yōu)孰劣?在很多情形下,人們往往仍希望把學(xué)習(xí)器 A 與 B 比出個高低 . 這時一個比較合理的判據(jù)是比較 P-R 曲線節(jié)面積的大小,它在一定程度上表征了學(xué)習(xí)器在查準(zhǔn)率和查全率上取得相對"雙高"的比例.但這個值不太容易估算,因此人們設(shè)計了一些綜合考慮查準(zhǔn)率 、 查全率的性能度量 。
最優(yōu)閾值
一個二分類(一張PR)
Fbeta加權(quán)的調(diào)和平均:對查準(zhǔn)率和查全率的重視程度有所不同,β\betaβ = 1,退化為標(biāo)準(zhǔn)的 F1; β\betaβ> 1 時查全率有更大影響 ; β\betaβ< 1 時查準(zhǔn)率有更大影響。
n個二分類實現(xiàn)的多分類
這里我們詳細(xì)說一下如何分解n個二分類實現(xiàn)多分類,主要有先計算再求和,先求和再計算兩方面:
總結(jié)
以上是生活随笔為你收集整理的【人工智能】机器学习西瓜书11——经验误差与过拟合,模型评估的方法,均方误差,错误率与精度,最优阈值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WhatsApp创始人:从领救济到身价6
- 下一篇: Google SketchUp Cook