理解Bias(偏差),Error(误差),和Variance(方差)的区别和联系?
內(nèi)容導(dǎo)讀
最近聽機(jī)器學(xué)習(xí)課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然后做了個筆記。Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準(zhǔn)度,其實Bias在股票上也有應(yīng)用,也可以反映股價在波動過程中與移動平均線偏離程度(乖離率),炒股的朋友應(yīng)該知道均線的概念。其實通過這個我感覺可以更容易的理解這個概念,我們知道Bias是受算法模型的復(fù)雜度決定的,假設(shè)下圖的紅線是我們給出的模型,藍(lán)色的點就是樣本,這是一個最簡單的線性模型,這個時候Bias就可以通過這些藍(lán)色的點到紅線沿Y軸的垂直距離來反映(即真實值與模型輸出的誤差),距離越大說明Bias越大,也說明擬合度更低。在概率論和統(tǒng)計學(xué)中方差是衡量隨機(jī)變量或一組數(shù)據(jù)時離散程度的度量。以上就是我對Bias(偏差),Error(誤差),和Variance(方差)的一些簡單理解,圖全是截取自李宏毅的PPT中。
最近聽機(jī)器學(xué)習(xí)課程時聽到這三個概念一開始有點模糊。感覺沒理解透,所以自己又查了點資料,消化了一下,然后做了個筆記。
首先三者之間的聯(lián)系是 Error = Bias + Variance(這里應(yīng)該是忽略的噪音)。Error反映的是整個模型的準(zhǔn)確度,說白了就是你給出的模型,input一個變量,和理想的output之間吻合程度,吻合度高就是Error低。Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準(zhǔn)度,其實Bias在股票上也有應(yīng)用,也可以反映股價在波動過程中與移動平均線偏離程度(乖離率),炒股的朋友應(yīng)該知道均線的概念。其實通過這個我感覺可以更容易的理解這個概念,我們知道Bias是受算法模型的復(fù)雜度決定的,假設(shè)下圖的紅線是我們給出的模型,藍(lán)色的點就是樣本,這是一個最簡單的線性模型,這個時候Bias就可以通過這些藍(lán)色的點到紅線沿Y軸的垂直距離來反映(即真實值與模型輸出的誤差),距離越大說明Bias越大,也說明擬合度更低。
?
當(dāng)我們增加模型的復(fù)雜度,剛剛是一個線性的模型,現(xiàn)在是一個四次方的模型,可以明顯看出點到模型的沿Y軸的垂直距離更少了,即擬合度更高了,所以Bias也更低了。所以這樣我們就可以很容易理解Bias和模型復(fù)雜度之間的關(guān)系了。給出結(jié)論:當(dāng)模型復(fù)雜度上升時,Bias減小。當(dāng)模型復(fù)雜度降低時,Bias增加。這里就涉及到了欠擬合(unfitting)和過度擬合(overFitting)的問題了。好了,接下來讓我們看看Variance(方差)的定義。
?
Variance(方差)反映的是模型每一次輸出結(jié)果與模型輸出期望之間的誤差,即模型的穩(wěn)定性。在概率論和統(tǒng)計學(xué)中方差是衡量隨機(jī)變量或一組數(shù)據(jù)時離散程度的度量。下圖中紅線就是每一組樣本對應(yīng)的模型,想象一下真實數(shù)據(jù)有無限多,我們以10個樣本為一組,選取了500個樣本組,然后在線性模型下,針對這500個樣本組,我們會有500組不同的b和w值組成的線性模型,最后構(gòu)成左圖的樣子。當(dāng)我們的模型升級成5次方的復(fù)雜程度時,針對這500個樣本組,我們會有右邊這張圖顯示的500組不同的參數(shù)構(gòu)成的模型。可以看出,明顯右邊的圖比左邊的圖更離散一些,試想一個極端情況,當(dāng)模型就是一個常數(shù)時,這個時候模型復(fù)雜度最低,同時Variance也為0。所以我們可以得出結(jié)論:當(dāng)模型復(fù)雜度低時,Variance更低,當(dāng)模型復(fù)雜度高時,Variance更高。
?
到這里我們可以給出兩個結(jié)論。
一、Bias和模型復(fù)雜度的關(guān)系:當(dāng)模型復(fù)雜度上升時,Bias減小。當(dāng)模型復(fù)雜度降低時,Bias增加。(反比關(guān)系)
二、Variance和模型復(fù)雜度的關(guān)系:當(dāng)模型復(fù)雜度低時,Variance更低,當(dāng)模型復(fù)雜度高時,Variance更高。(正比關(guān)系)
一開始我們就知道Error = Bias + Variance。整個模型的準(zhǔn)確度和這兩個都有關(guān)系,所以這下看似是有些矛盾的。如何才能取到最小的Error呢,看下圖,藍(lán)線就是Error的伴隨Bias和Variance的變化情況,可以看出橫坐標(biāo)3應(yīng)該是一個較好的結(jié)果。所以我們需要找到一個平衡點取得最優(yōu)解。
?
實際情景中我們怎么判斷自己的模型是Bias大還是Variance大呢,這個就要看到底是你的模型無法盡量大的擬合你的樣本還是你的模型高度擬合你的樣本但是用測試數(shù)據(jù)算時誤差右很大。前者就是應(yīng)該bias大導(dǎo)致的,也就是模型復(fù)雜度太低導(dǎo)致的。后者就是因為模型復(fù)雜度高導(dǎo)致Variance高導(dǎo)致的。
以上就是我對Bias(偏差),Error(誤差),和Variance(方差)的一些簡單理解,圖全是截取自李宏毅的PPT中。
轉(zhuǎn)載于:https://www.cnblogs.com/andy-0212/p/10117984.html
總結(jié)
以上是生活随笔為你收集整理的理解Bias(偏差),Error(误差),和Variance(方差)的区别和联系?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 'demangle.h' file no
- 下一篇: Asp.Net Core 404处理