日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型评估与选择

發(fā)布時間:2025/3/14 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型评估与选择 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

機器學習算法完整版見fenghaootong-github

模型評估與選擇

  • 經驗誤差與過擬合
  • 評估方法
  • 性能度量
  • 比較檢驗
  • 偏差與方差

經驗誤差與過擬合

  • 誤差率:分類錯誤的樣本數占樣本總數的比例
  • 精度:1 - 錯誤率
  • 誤差:學習器的實際預測輸出與樣本的真實輸出之間的差異
  • 過擬合:訓練樣本學的太好,就是把訓練樣本的所有特征當作了所有樣本的特征

評估方法

留出法

留出法比較簡單,就是把數據集進行劃分,劃分為兩個互斥的集合,一個作為訓練集,一個作為測試集,至于怎么分,采用什么樣的采樣方法,可以自己決定

交叉驗證法

  • 首先把數據集劃分為k個大小相同的互斥子集
  • 每次用k-1個子集作為訓練集,一個子集作為測試集
  • 交叉使用這k個子集作為測試集,從而進行k次訓練和測試,最終返回這k個結果的均值
  • 這就是k折交叉驗證

自助法

自助法和交叉驗證法有點相似,不同的是,兩個劃分數據的方式不同,自助法方法如下:

  • 首先首先從m個樣本的數據集D中,可放回的重復抽樣m次,得到一個有m個樣本的數據集DiD_iDi?
  • 這樣的抽樣方式在DiD_iDi?肯定有重復的數據,有一部分數據肯定沒有抽到,沒有抽到的概率為(1?1m)m(1-\frac{1}{m})^m(1?m1?)m
  • 用含有m個樣本的數據集DiD_iDi?作為訓練集,剩下的沒有抽到的作為測試集
  • 將這樣的動作重復多次就可以訓練出多個模型

自助法在數據集較小、難以有效劃分訓練/測試集時很有用,自助法能從初始數據集中產生多個不同的訓練集,這對集成學習等方法很有效
自助法產生的數據集改變了初始數據集的分布,這會引入估計誤差,因此數據量足夠時,留出法和交叉驗證法更常用

調參與最終模型

  • 大多數的學習算法都有參數需要設定,參數配置不同學習的模型的性能往往有顯著差別
  • 但是在調參的時候要注意設置步長,否則在實數范圍內,對每種參數配置訓練出模型來是不可能的
  • 調參是一件困難的工程,比如算法有3個參數,每個參數考慮5個候選參數,這就有53=1255^3 = 12553=125個模型
  • 模型選擇時要把訓練數據分成訓練集和驗證集,選擇最好的模型,然后用所有的訓練數據重新訓練模型,最后再用測試集測試結果

性能度量

舉個例子,yyy為真是值,f(x)f(x)f(x)為預測結果

回歸任務最常用的性能度量時“均方誤差“:

E(f:D)=1m∑i=1m(f(x)?y)2E(f:D) = \frac{1}{m} \sum_{i=1}^{m}(f(x)-y)^2E(f:D)=m1?i=1m?(f(x)?y)2

更一般的,對于數據分布DDD和概率密度函數p(?)p(\cdot)p(?),均方誤差:

E(f:D)=∫x∽Dp(x)(f(x)?y)2dxE(f:D) = \int_{x\backsim D} p(x)(f(x)-y)^2 dxE(f:D)=xD?p(x)(f(x)?y)2dx

錯誤率與精度

分類任務,最常用的性能測量

錯誤率:

E(f:D)=1m∑i=1m?(f(x)≠yi)E(f:D) = \frac{1}{m} \sum_{i=1}^{m} \amalg (f(x)\ne y_i)E(f:D)=m1?i=1m??(f(x)??=yi?)

精度:

acc(f:D)=1m∑i=1m?(f(x)=yi)=1?E(f:D)acc(f:D) = \frac{1}{m} \sum_{i=1}^{m} \amalg (f(x) = y_i) = 1 - E(f:D)acc(f:D)=m1?i=1m??(f(x)=yi?)=1?E(f:D)

更一般的,對于數據分布DDD和概率密度函數p(?)p(\cdot)p(?),錯誤率和精度:

E(f:D)=∫x∽Dp(x)?(f(x)≠yi)dxE(f:D) = \int_{x\backsim D} p(x) \amalg (f(x)\ne y_i) dxE(f:D)=xD?p(x)?(f(x)??=yi?)dx

acc(f:D)=∫x∽Dp(x)?(f(x)=yi)dx=1?E(f:D)acc(f:D) = \int_{x\backsim D} p(x) \amalg (f(x) = y_i) dx = 1 - E(f:D)acc(f:D)=xD?p(x)?(f(x)=yi?)dx=1?E(f:D)

查準率、查全率和F1

舉一個醫(yī)院的例子,錯誤率就是一個醫(yī)生對病人的誤判率,但是并沒有說時把健康的人誤判為病人還是把病人誤判為健康的人,這是兩種完全不同的結果,所以錯誤率這時候就不夠用了。

還有就是信息檢索時,我們經常關心”檢索出來的信息有多少比例是用戶感興趣的“ ”用戶感興趣的信息中有多少被檢索出來了“,這兩個就分別對應了“查準率”和“查全率”

對于二分類問題,用一個分類結果混淆矩陣說明:

真實情況預測結果預測結果
?正例反例
正例TP(真正例)FN(假反例)
反例FP(假正例)TN(真反例)

查準率: P=TPTP+FPP = \frac{TP}{TP + FP}P=TP+FPTP?
查全率: R=TPTP+FNR = \frac{TP}{TP + FN}R=TP+FNTP?
查準率和查全率的不同偏好: Fβ=(1+β2)×P×R(β2×P)+RF_\beta = \frac{(1 + \beta^2) \times P \times R}{(\beta^2 \times P) + R}Fβ?=(β2×P)+R(1+β2)×P×R?

其中β&gt;0\beta &gt; 0β>0度量了查全率對查準率的相對重要性,β=1\beta = 1β=1是標準的F1F_1F1?, β&gt;1\beta &gt; 1β>1時查全率有更大的影響,β&lt;1\beta &lt; 1β<1時查準率有更大的影響

ROC和AUC

ROC曲線的橫縱坐標分別是:

橫坐標為假正例率:FPR=FPFP+TNFPR = \frac{FP}{FP + TN}FPR=FP+TNFP?
縱坐標為真正例率:TPR=TPTP+FNTPR = \frac{TP}{TP + FN}TPR=TP+FNTP?

若一個學習器的ROC曲線被另一個學習器的ROC曲線包裹,則后者優(yōu)于前者,如果兩條曲線發(fā)生重合,則使用ROC曲線下的面積,即AUC

AUC=12∑i=1m?1(xi+1?xi)(yi+yi+1)AUC = \frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1} - x_i)(y_i + y_{i+1})AUC=21?i=1m?1?(xi+1??xi?)(yi?+yi+1?)

比較檢驗

本節(jié)默認以錯誤率為性能測量,用?\epsilon?表示

假設檢驗

假設檢驗中的“假設”是對學習器泛化錯誤率分布的某種判斷或者猜想,例如“?\epsilon?=?0\epsilon_0?0?”。現實任務中我們并不知道學習器的泛化錯誤率,只能獲知其測試錯誤率?^\widehat{\epsilon}?。泛化錯誤率與測試錯誤率未必相同,但二者接近的可能性比較大,因此,可根據測試錯誤率推出泛化錯誤率的分布。

  • 泛化錯誤率?\epsilon?的學習器在一個樣本上犯錯的概率為?\epsilon?;
  • 測試錯誤率?^\widehat{\epsilon}?意味著在m個測試樣本中恰有?^?m\widehat{\epsilon}* m??m個被誤分類。
  • 在包含m個樣本的測試集上,泛化錯誤率為?\epsilon?的學習器被測得測試錯誤率為?^\widehat{\epsilon}?的概率:
    P(?^;?)=??^?mm???^?m(??)m??^?mP(\widehat{\epsilon};\epsilon) = \lgroup_{\widehat{\epsilon} * m}^{m} \rgroup\epsilon^{\widehat{\epsilon} * m}(- \epsilon )^{m - \widehat{\epsilon} * m}P(?;?)=???mm?????m(??)m???m
  • 顯著度為α\alphaα
  • 交叉驗證法要進行多次訓練和測試,會得到多個測試錯誤率,我們使用“t檢驗”,假定我們得到了k個測試錯誤率,?^1\widehat{\epsilon}_{1}?1??^2\widehat{\epsilon}_{2}?2?,…,?^k\widehat{\epsilon}_{k}?k?,則平均測試錯誤率μ\muμ和方差σ2\sigma^2σ2為:
    μ=1k∑i=1k?^i\mu = \frac{1}{k}\sum_{i = 1}^{k}\widehat{\epsilon}_{i}μ=k1?i=1k??i?
    σ2=1k?1∑i=1k(?^i?μ)2\sigma^{2} = \frac{1}{k-1}\sum_{i = 1}^{k}(\widehat{\epsilon}_{i}-\mu)^2σ2=k?11?i=1k?(?i??μ)2
  • 考慮到這k個測試錯誤率可看作泛化錯誤率?0\epsilon_{0}?0?的獨立采樣,則變量
    τt=k(μ??0)σ \tau_t= \frac{\sqrt{k}(\mu - \epsilon_{0})}{\sigma}τt?=σk?(μ??0?)?

服從k-1的t分布

  • 對于假設“μ=?0\mu = \epsilon_{0}μ=?0?”和顯著度α\alphaα,若平均錯誤率μ\muμ?0\epsilon_{0}?0?之差∣μ??0∣|\mu - \epsilon_{0}|μ??0?位于臨界值范圍[t?α2,tα2][t_{-\frac{\alpha}{2}}, t_{\frac{\alpha}{2}}][t?2α??,t2α??],則不能拒絕假設“μ=?0\mu = \epsilon_{0}μ=?0?”,即可認為泛化錯誤率為?0\epsilon_{0}?0?,置信度為1?α1-\alpha1?α;否則拒絕該假設,即在該顯著度下可認為泛化錯誤率與?0\epsilon_{0}?0?有顯著不同。α\alphaα常用取值為0.05和0.01。

McNemar檢驗

  • 對于二分類的問題,使用留出法,不僅可估計學習器A和B的測試錯誤率,還可獲得兩學習器分類結果的差別,如下列聯(lián)表所示:
算法B算法A算法A
?正確錯誤
正確e00e_{00}e00?e01e_{01}e01?
錯誤e10e_{10}e10?e11e_{11}e11?
  • 若我們做的假設是兩學習器性能相同,則應有e01=e10e_{01}=e_{10}e01?=e10?,那么變量∣e01?e10∣|e_{01}-e_{10}|e01??e10?應當服從正態(tài)分布。McNemar檢驗考慮變量為:
    τχ2=(∣e01?e10∣?1)2e01+e10\tau_{\chi^2} = \frac{(|e_{01}-e_{10}|-1)^2}{e_{01}+e_{10}}τχ2?=e01?+e10?(e01??e10??1)2?

服從自由度1的χ2\chi^2χ2分布,即標準正態(tài)分布變量的平方

  • 給定顯著度α\alphaα,當以上變量小于臨界值χα2\chi_{\alpha}^2χα2?時,不能拒絕假設,即認為兩學習器的性能沒有顯著差別。

Friedman和Nemenyi檢驗

  • 用于在一組數據上對多個算法進行比較
  • 一種是在每個數據集上分別列出兩兩比較的結果
  • 另一種是基于算法排序的Friedman檢驗
  • 如果Friedman檢驗得到的結果是所有算法的性能相同,這時候再用Nemenyi檢驗

偏差與方差

  • 泛化誤差是指在新樣本上的誤差
  • 泛化誤差等于偏差、方差與噪聲之和
    • 偏差度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了學習算法本身的擬合能力
    • 方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,即數據擾動所造成的影響
    • 噪聲則表達了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度

?

轉載于:https://www.cnblogs.com/htfeng/p/9931738.html

總結

以上是生活随笔為你收集整理的模型评估与选择的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久综合加勒比 | 亚洲天堂影院 | 性感美女高潮 | 狠狠一区二区 | 韩国无码av片在线观看网站 | www免费黄色| 成人tiktok黄短视频 | 国产精品4 | 四级黄色片 | 亚洲综合五月天婷婷丁香 | 日产亚洲一区二区三区 | 韩国一级淫一片免费放 | 精品成人av一区二区三区 | 亚洲不卡电影 | 三区在线视频 | 精品久久久久久无码人妻 | 丝袜美女被c | 成人午夜视频免费观看 | 大奶子在线观看 | a天堂资源| 78m78成人免费网站 | 久久久久久久久黄色 | 性欧美8khd高清极品 | 国内性爱视频 | 亚洲欧美在线成人 | 性欧美精品男男 | 日本色妞 | 牛牛影视一区二区三区 | 欧美另类高清videos的特点 | 青青操在线观看 | 亚洲无人禁区 | 九九热视 | 青青草久久 | 韩日av | 亚洲精华国产精华精华液网站 | 亚洲欧美日韩在线一区二区 | 在线欧美激情 | 国产激情无套内精对白视频 | 久久com | 久久精品一区二区三区黑人印度 | 男人添女人囗交视频 | 久久九九国产视频 | 日韩av在线高清 | 日本福利一区二区三区 | 少妇高潮一区二区三区 | 欧美美女性高潮 | 国产你懂 | 亚洲激情午夜 | 精品欧美黑人一区二区三区 | 国产精品国产三级国产普通话对白 | 粉嫩小箩莉奶水四溅在线观看 | 亚洲自拍色图 | 特级毛片在线 | 一女三黑人理论片在线 | 人人搞人人| a级片在线| 亚洲喷水| 边吃奶边添下面好爽 | 久久韩日 | 欧美黄色短视频 | 成人黄色av | 影音先锋黄色资源 | 与亲女洗澡时伦了毛片 | 久久精品免费播放 | 日本免费在线视频 | 禁漫天堂黄漫画无遮挡观看 | 天天干,天天干 | 欧美精品在欧美一区二区 | 国产乱人伦app精品久久 | 久久久久久久极品内射 | 免费看一级黄色大片 | 亚洲欧美日韩在线 | bt男人天堂 | 中文字幕亚洲欧美日韩 | 黑人中文字幕一区二区三区 | 精品国产亚洲AV | 国产一级视频在线观看 | 主播福利在线 | 在线永久看片免费的视频 | 人人妻人人澡人人爽精品日本 | 骚虎视频最新网址 | 天天操夜夜操狠狠操 | 亚洲综合小说 | 午夜影视体验区 | 精品国产96亚洲一区二区三区 | 亚洲九九爱| 色亚洲成人 | 蜜臀久久99静品久久久久久 | 岛国av一区 | 狠狠干2021 | 中文字幕33页 | 日韩精品播放 | 久久福利网站 | 国产激情无套内精对白视频 | 日本一二三区视频在线 | 一级黄色美女视频 | 久久黄色网 | 黄页网站视频在线观看 | 狠狠干五月天 |