當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PAC与样本复杂度

發(fā)布時間：2024/3/12 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 PAC与样本复杂度小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇文章主要總結(jié) PAC 學習框架以及樣本復雜度相關(guān)的東西，大致來說就是:要保證以概率 $1?δ1-\delta$ 使得 generalized error 小于 $?\epsilon$ 需要多大的樣本復雜度，以及時間復雜度才是好的。

問題及約定

符號約定

兩個 error 符號

就是我們常說的 train error 與 true error

接下來是定義我們要研究的問題

簡單的來說就是依賴于 $m,H,?,δm,H,\epsilon,\delta$ 這四個東西，我們找到一個樣本復雜度以及計算復雜度的界.或者說找到他們的一些關(guān)系

定義

consistent hypothesis:

$h(x)=c(x),\forall (x,c(x))\in S$

一個假設稱為是 consistent 的，if and only if, $?(x,c(x))∈S\forall (x,c(x))\in S$ 都有， $h (x) = c (x)$

Version Space:

$VSH,S:{h∈H∣consistent(h,S)}VS_{H,S}:\{h \in H|consistent(h,S)\}$

$??exhausted\epsilon-exhausted$

$VS_{H,S}$ 稱為 $??exhausted\epsilon-exhausted$ ,當且僅當,

$?h∈H,errorD(h)<?\forall h\in H,error_D(h)<\epsilon$

throme

這個定理的證明會在文末給出，接下來的核心就在于理解這個定理

理解

這個定理的前提:

H f i n i t e

c∈Hc\in H

注意這個定理說的是 not，將這個定理翻譯一下就是

$Pr?(?h∈H,(errorS(h)=0)&(errorD(h)>?))<∣H∣exp???m\Pr(\exists h \in H,(error_S(h)=0)\And(error_D(h)>\epsilon))<|H|\exp^{-\epsilon m}$

也就是說如果 $error_S(h)=0$ , 那么 $errorD(h)<?error_D(h)<\epsilon$ 的概率至少是 $∣H∣exp???m|H|\exp^{-\epsilon m}$

如果我們想要讓 $∣H∣exp???m<δ|H|\exp^{-\epsilon m} < \delta$ , 那么我們需要

$m>??1(log?(∣H∣)+log?(δ?1))m>\epsilon^{-1}(\log(|H|)+\log(\delta^{-1}))$ ,這么多變量

if $error_S(h)=0$ 那么至少我們有 $1?δ1-\delta$ 的概率保證

$errorD(h)≤m?1(log?(∣H∣)+log?(δ?1))error_D(h)\le m^{-1}(\log(|H|)+\log(\delta^{-1}))$

PAC learnable

簡單的說，一個算法是 PAC(Probability Approximation Correct) 可學習的，要滿足，時間復雜度和樣本復雜度都是多項式的

agnostic learning

上面都說的是 $c∈Hc\in H$ ，那如果， $c?Hc\notin H$ 呢？

根據(jù) Hoeffding 不等式(see wiki)

fix a $h$ ,

$Pr?(errorD(h)?errorS(h)>?)≤2exp??2m?2\Pr(error_D(h)-error_S(h)>\epsilon)\le 2\exp^{-2m\epsilon^2}$

修改前面的定理，

$Pr?(?h∈H,errorD(h)?errorS(h)>?)<∣H∣2exp??2m?2\Pr(\exists h\in H,error_D(h)-error_S(h)>\epsilon)<|H|2\exp^{-2m\epsilon^2}$

因此在概率為 $δ\delta$ 的情況下，需要的樣本 bound

就可以很容易求解了

erm

最后不加證明的給出

即如果我們知道 $err_S(h)$ 那么 $error_D(h)$ 的bound 在哪里?
所有的證明和材料，都可見reference

reference

10716 f16 Eric Xing

10715 f18 Maria-Florina Balcan

版權(quán)聲明

本作品為作者原創(chuàng)文章，采用知識共享署名-非商業(yè)性使用-相同方式共享 4.0 國際許可協(xié)議

作者: taotao

轉(zhuǎn)載請保留此版權(quán)聲明，并注明出處

總結(jié)

以上是生活随笔為你收集整理的PAC与样本复杂度的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：临界区、互斥量、事件、信号量四种方式
下一篇： JAVA高级（一）——lambda