1.9 可避免误差-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
| 1.8 為什么是人的表現(xiàn) | 回到目錄 | 1.10 理解人的表現(xiàn) |
可避免誤差 (Avoidable Error)
我們討論過,你希望你的學(xué)習(xí)算法能在訓(xùn)練集上表現(xiàn)良好,但有時(shí)你實(shí)際上并不想做得太好。你得知道人類水平的表現(xiàn)是怎樣的,可以確切告訴你算法在訓(xùn)練集上的表現(xiàn)到底應(yīng)該有多好,或者有多不好,讓我告訴你是什么意思吧。
我們經(jīng)常使用貓分類器來做例子,比如人類具有近乎完美的準(zhǔn)確度,所以人類水平的錯(cuò)誤是1%。在這種情況下,如果您的學(xué)習(xí)算法達(dá)到8%的訓(xùn)練錯(cuò)誤率和10%的開發(fā)錯(cuò)誤率,那么你也許想在訓(xùn)練集上得到更好的結(jié)果。所以事實(shí)上,你的算法在訓(xùn)練集上的表現(xiàn)和人類水平的表現(xiàn)有很大差距的話,說明你的算法對訓(xùn)練集的擬合并不好。所以從減少偏差和方差的工具這個(gè)角度看,在這種情況下,我會(huì)把重點(diǎn)放在減少偏差上。你需要做的是,比如說訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò),或者跑久一點(diǎn)梯度下降,就試試能不能在訓(xùn)練集上做得更好。
但現(xiàn)在我們看看同樣的訓(xùn)練錯(cuò)誤率和開發(fā)錯(cuò)誤率,假設(shè)人類的表現(xiàn)不是1%,我們就把它抄寫過來。但你知道,在不同的應(yīng)用或者說用在不同的數(shù)據(jù)集上,假設(shè)人類水平錯(cuò)誤實(shí)際上是7.5%,也許你的數(shù)據(jù)集中的圖像非常模糊,即使人類都無法判斷這張照片中有沒有貓。這個(gè)例子可能稍微更復(fù)雜一些,因?yàn)槿祟惼鋵?shí)很擅長看照片,分辨出照片里有沒有貓。但就為了舉這個(gè)例子,比如說你的數(shù)據(jù)集中的圖像非常模糊,分辨率很低,即使人類錯(cuò)誤率也達(dá)到7.5%。在這種情況下,即使你的訓(xùn)練錯(cuò)誤率和開發(fā)錯(cuò)誤率和其他例子里一樣,你就知道,也許你的系統(tǒng)在訓(xùn)練集上的表現(xiàn)還好,它只是比人類的表現(xiàn)差一點(diǎn)點(diǎn)。在第二個(gè)例子中,你可能希望專注減少這個(gè)分量,減少學(xué)習(xí)算法的方差,也許你可以試試正則化,讓你的開發(fā)錯(cuò)誤率更接近你的訓(xùn)練錯(cuò)誤率。
所以在之前的課程關(guān)于偏差和方差的討論中,我們主要假設(shè)有一些任務(wù)的貝葉斯錯(cuò)誤率幾乎為0。所以要解釋這里發(fā)生的事情,看看這個(gè)貓分類器,用人類水平的錯(cuò)誤率估計(jì)或代替貝葉斯錯(cuò)誤率或貝葉斯最優(yōu)錯(cuò)誤率,對于計(jì)算機(jī)視覺任務(wù)而言,這樣替代相當(dāng)合理,因?yàn)槿祟悓?shí)際上是非常擅長計(jì)算機(jī)視覺任務(wù)的,所以人類能做到的水平和貝葉斯錯(cuò)誤率相差不遠(yuǎn)。根據(jù)定義,人類水平錯(cuò)誤率比貝葉斯錯(cuò)誤率高一點(diǎn),因?yàn)樨惾~斯錯(cuò)誤率是理論上限,但人類水平錯(cuò)誤率離貝葉斯錯(cuò)誤率不會(huì)太遠(yuǎn)。所以這里比較意外的是取決于人類水平錯(cuò)誤率有多少,或者這真的就很接近貝葉斯錯(cuò)誤率,所以我們假設(shè)它就是,但取決于我們認(rèn)為什么樣的水平是可以實(shí)現(xiàn)的。
在這兩種情況下,具有同樣的訓(xùn)練錯(cuò)誤率和開發(fā)錯(cuò)誤率,我們決定專注于減少偏差的策略或者減少方差的策略。那么左邊的例子發(fā)生了什么? 8%的訓(xùn)練錯(cuò)誤率真的很高,你認(rèn)為你可以把它降到1%,那么減少偏差的手段可能有效。而在右邊的例子中,如果你認(rèn)為貝葉斯錯(cuò)誤率是7.5%,這里我們使用人類水平錯(cuò)誤率來替代貝葉斯錯(cuò)誤率,但是你認(rèn)為貝葉斯錯(cuò)誤率接近7.5%,你就知道沒有太多改善的空間了,不能繼續(xù)減少你的訓(xùn)練錯(cuò)誤率了,你也不會(huì)希望它比7.5%好得多,因?yàn)檫@種目標(biāo)只能通過可能需要提供更進(jìn)一步的訓(xùn)練。而這邊,就還(訓(xùn)練誤差和開發(fā)誤差之間)有更多的改進(jìn)空間,可以將這個(gè)2%的差距縮小一點(diǎn),使用減少方差的手段應(yīng)該可行,比如正則化,或者收集更多的訓(xùn)練數(shù)據(jù)。
所以要給這些概念命名一下,這不是廣泛使用的術(shù)語,但我覺得這么說思考起來比較流暢。就是把這個(gè)差值,貝葉斯錯(cuò)誤率或者對貝葉斯錯(cuò)誤率的估計(jì)和訓(xùn)練錯(cuò)誤率之間的差值稱為可避免偏差,你可能希望一直提高訓(xùn)練集表現(xiàn),直到你接近貝葉斯錯(cuò)誤率,但實(shí)際上你也不希望做到比貝葉斯錯(cuò)誤率更好,這理論上是不可能超過貝葉斯錯(cuò)誤率的,除非過擬合。而這個(gè)訓(xùn)練錯(cuò)誤率和開發(fā)錯(cuò)誤率之前的差值,就大概說明你的算法在方差問題上還有多少改善空間。
可避免偏差這個(gè)詞說明了有一些別的偏差,或者錯(cuò)誤率有個(gè)無法超越的最低水平,那就是說如果貝葉斯錯(cuò)誤率是7.5%。你實(shí)際上并不想得到低于該級(jí)別的錯(cuò)誤率,所以你不會(huì)說你的訓(xùn)練錯(cuò)誤率是8%,然后8%就衡量了例子中的偏差大小。你應(yīng)該說,可避免偏差可能在0.5%左右,或者0.5%是可避免偏差的指標(biāo)。而這個(gè)2%是方差的指標(biāo),所以要減少這個(gè)2%比減少這個(gè)0.5%空間要大得多。而在左邊的例子中,這7%衡量了可避免偏差大小,而2%衡量了方差大小。所以在左邊這個(gè)例子里,專注減少可避免偏差可能潛力更大。
所以在這個(gè)例子中,當(dāng)你理解人類水平錯(cuò)誤率,理解你對貝葉斯錯(cuò)誤率的估計(jì),你就可以在不同的場景中專注于不同的策略,使用避免偏差策略還是避免方差策略。在訓(xùn)練時(shí)如何考慮人類水平表現(xiàn)來決定工作著力點(diǎn),具體怎么做還有更多微妙的細(xì)節(jié),所以在下一個(gè)視頻中,我們會(huì)深入了解人類水平表現(xiàn)的真正意義。
課程板書
| 1.8 為什么是人的表現(xiàn) | 回到目錄 | 1.10 理解人的表現(xiàn) |
總結(jié)
以上是生活随笔為你收集整理的1.9 可避免误差-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.8 为什么是人的表现-深度学习第三课
- 下一篇: 1.10 理解人的表现-深度学习第三课《