日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PAC与样本复杂度

發布時間:2024/3/12 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PAC与样本复杂度 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇文章主要總結 PAC 學習框架以及樣本復雜度相關的東西,大致來說就是:要保證以概率 1?δ1-\delta1?δ 使得 generalized error 小于 ?\epsilon? 需要多大的樣本復雜度,以及時間復雜度才是好的。

問題及約定

符號約定

兩個 error 符號

就是我們常說的 train error 與 true error

接下來是定義我們要研究的問題

簡單的來說就是 依賴于 m,H,?,δm,H,\epsilon,\deltam,H,?,δ 這四個東西,我們找到一個 樣本復雜度以及計算復雜度的界.或者說找到他們的一些關系

定義

consistent hypothesis:

consistent(h,S)∣=h(x)=c(x),?(x,c(x))∈Sconsistent(h,S) |= h(x)=c(x),\forall (x,c(x))\in Sconsistent(h,S)=h(x)=c(x),?(x,c(x))S

一個 假設稱為是 consistent 的,if and only if, ?(x,c(x))∈S\forall (x,c(x))\in S?(x,c(x))S 都有,h(x)=c(x)h(x)=c(x)h(x)=c(x)

Version Space:

VSH,S:{h∈H∣consistent(h,S)}VS_{H,S}:\{h \in H|consistent(h,S)\}VSH,S?:{hHconsistent(h,S)}

??exhausted\epsilon-exhausted??exhausted

VSH,SVS_{H,S}VSH,S? 稱為 ??exhausted\epsilon-exhausted??exhausted,當且僅當,

?h∈H,errorD(h)&lt;?\forall h\in H,error_D(h)&lt;\epsilon?hH,errorD?(h)<?

throme

這個定理的證明會在文末給出,接下來的核心就在于理解這個定理

理解

這個定理的前提:

  • HfiniteH finiteHfinite
  • c∈Hc\in HcH
  • 注意這個定理說的是 not,將這個定理翻譯一下就是

    Pr?(?h∈H,(errorS(h)=0)&amp;(errorD(h)&gt;?))&lt;∣H∣exp???m\Pr(\exists h \in H,(error_S(h)=0)\And(error_D(h)&gt;\epsilon))&lt;|H|\exp^{-\epsilon m}Pr(?hH,(errorS?(h)=0)&(errorD?(h)>?))<Hexp??m

    也就是說 如果 errorS(h)=0error_S(h)=0errorS?(h)=0, 那么 errorD(h)&lt;?error_D(h)&lt;\epsilonerrorD?(h)<? 的概率至少是 ∣H∣exp???m|H|\exp^{-\epsilon m}Hexp??m

    如果我們想要讓 ∣H∣exp???m&lt;δ|H|\exp^{-\epsilon m} &lt; \deltaHexp??m<δ, 那么我們需要

    m&gt;??1(log?(∣H∣)+log?(δ?1))m&gt;\epsilon^{-1}(\log(|H|)+\log(\delta^{-1}))m>??1(log(H)+log(δ?1)),這么多變量

    if errorS(h)=0error_S(h)=0errorS?(h)=0 那么 至少我們有 1?δ1-\delta1?δ 的概率保證

    errorD(h)≤m?1(log?(∣H∣)+log?(δ?1))error_D(h)\le m^{-1}(\log(|H|)+\log(\delta^{-1}))errorD?(h)m?1(log(H)+log(δ?1))

    PAC learnable

    簡單的說,一個算法是 PAC(Probability Approximation Correct) 可學習的,要滿足,時間復雜度和樣本復雜度都是多項式的

    agnostic learning

    上面都說的是 c∈Hc\in HcH ,那如果, c?Hc\notin Hc/?H 呢?

    根據 Hoeffding 不等式(see wiki)

    fix a hhh,

    Pr?(errorD(h)?errorS(h)&gt;?)≤2exp??2m?2\Pr(error_D(h)-error_S(h)&gt;\epsilon)\le 2\exp^{-2m\epsilon^2}Pr(errorD?(h)?errorS?(h)>?)2exp?2m?2

    修改前面的定理,

    Pr?(?h∈H,errorD(h)?errorS(h)&gt;?)&lt;∣H∣2exp??2m?2\Pr(\exists h\in H,error_D(h)-error_S(h)&gt;\epsilon)&lt;|H|2\exp^{-2m\epsilon^2}Pr(?hH,errorD?(h)?errorS?(h)>?)<H2exp?2m?2

    因此在概率為 δ\deltaδ 的情況下,需要的樣本 bound

    就可以很容易求解了

    erm

    最后不加證明的給出

    即 如果我們知道 errS(h)err_S(h)errS?(h) 那么 errorD(h)error_D(h)errorD?(h) 的bound 在哪里?
    所有的證明和材料,都可見reference

    reference

  • 10716 f16 Eric Xing
  • 10715 f18 Maria-Florina Balcan
  • 版權聲明

    本作品為作者原創文章,采用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議

    作者: taotao

    轉載請保留此版權聲明,并注明出處

    總結

    以上是生活随笔為你收集整理的PAC与样本复杂度的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。