如何理解假设空间与版本空间?
轉(zhuǎn)載請(qǐng)注明出處:http://www.cnblogs.com/HongjianChen/p/8383816.html
以書上P4頁(yè)的表1.1為例:
我們有這樣一個(gè)訓(xùn)練數(shù)據(jù)集:
這里假設(shè)空間是由形如 “(色澤= ?)^(根蒂=?)^(敲聲=?)” 的可能取值所形成的假設(shè)組成。
這里“?”表示尚未確定的取值。
我理解是特征屬性的所有可能取值組合成的假設(shè)集合就是假設(shè)空間。
假設(shè)空間由3部分組成:
① 屬性(特征)色澤,根蒂,敲聲的取值分別有2,3,3種選擇;
② 色澤,根蒂,敲聲也許無論取什么值都合適,我們分別用通配符“ * ”來表示,于是取值分別有1,1,1種選擇;
例如:“ 好瓜<—>(色澤= *)^(根蒂=蜷縮)^(敲聲=濁響)”,即“好瓜是根蒂蜷縮、敲聲濁響的瓜,什么色澤都行”
③ 還有一種極端情況,有可能“ 好瓜 ”這個(gè)概念根本就不成立,世界上壓根就沒有“好瓜”這種東西,我們用?表示這個(gè)假設(shè)。
所以,表1.1中,色澤有2中取值,根蒂有3中取值,敲聲有3中取值,再加上各自的“通配項(xiàng)”,以及極端情況“好瓜概念根本不成立”的?,故假設(shè)空間規(guī)模大小為:(2+1) * (3+1) * (3+1)+ 1 = 49。
表1.1的訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的假設(shè)空間具體內(nèi)容如下:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 ?
1.我們可以把學(xué)習(xí)過程看作一個(gè)在假設(shè)(hypothesis)組成的空間中進(jìn)行搜索的過程。搜索過程中可以不斷刪除與正例不一致的假設(shè)、和(或)與反例一致的假設(shè)。最終將會(huì)獲得與訓(xùn)練集一致(即對(duì)所有訓(xùn)練樣本能夠進(jìn)行正確判斷)的假設(shè),這就是我們學(xué)得的結(jié)果。
2.現(xiàn)實(shí)問題中我們常面臨很大的假設(shè)空間,但學(xué)習(xí)過程是基于有限樣本訓(xùn)練集進(jìn)行的,因此有可能有多個(gè)假設(shè)與訓(xùn)練集一致,即存在著一個(gè)與訓(xùn)練集一致的“假設(shè)集合”,我們稱之為“版本空間(version space)”。
版本空間定義1:
版本空間(version space)是概念學(xué)習(xí)中與已知數(shù)據(jù)集一致的所有假設(shè)(hypothesis)的子集集合。
對(duì)于二維空間中的“矩形”假設(shè)(上圖),綠色加號(hào)代表正類樣本,紅色小圈代表負(fù)類樣本。 GB 是最大泛化正假設(shè)邊界(maximally General positive hypothesis Boundary), SB 是最大精確正假設(shè)邊界(maximally Specific positive hypothesis Boundary). GB與SB所圍成的區(qū)域中的矩形即為版本空間中的假設(shè),也即GB與SB圍成的區(qū)域就是版本空間。
在一些需要對(duì)假設(shè)的泛化能力排序的情形下,就可以通過GB與SB這兩個(gè)上下界來表示版本空間。在學(xué)習(xí)的過程中,學(xué)習(xí)算法就可以只在GB、SB這兩個(gè)代表集合上操作。我理解的是,以表1.1為例,負(fù)類樣本相當(dāng)于在假設(shè)空間中,與表1.1與正例不一致的假設(shè)、和(或)與反例一致的假設(shè)(即與表1.1不吻合的假設(shè))數(shù)據(jù)集,正類樣本即是表1.1中的數(shù)據(jù)集。版本空間是邊界GB和邊界SB之間圍成的區(qū)域。
按照上述過程進(jìn)行學(xué)習(xí):
(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除假設(shè)空間中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除剩余假設(shè)空間中的2、10、16、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
可以刪除剩余假設(shè)空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩余假設(shè)空間中無可刪除的假設(shè)
學(xué)習(xí)過后剩余的假設(shè)為:
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
這就是最后的“假設(shè)集合”,也就是“版本空間”。
參考資料:
總結(jié)
以上是生活随笔為你收集整理的如何理解假设空间与版本空间?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MIME HTTP文件下载失败(HTTP
- 下一篇: 注册表(特简版)