3.2.1 造成误差的原因分析
進(jìn)行誤差分析
比如說圖片識(shí)別的機(jī)器學(xué)習(xí)算法,可能會(huì)有一些圖片被錯(cuò)誤的識(shí)別了。我們要想提高準(zhǔn)確率,可以先去分析一下到底有哪種圖片被錯(cuò)誤的的識(shí)別了。比如說有100張圖片被錯(cuò)誤的識(shí)別了,我們可以對(duì)這100張圖片進(jìn)行分類,看哪些圖片被錯(cuò)誤的識(shí)別成了貓哪些圖片被錯(cuò)誤的識(shí)別成了狗。或者是哪些圖片,因?yàn)楸容^模糊兒被錯(cuò)誤的識(shí)別。于是,我們就可以針對(duì)這些被錯(cuò)誤識(shí)別的圖片,進(jìn)行個(gè)性化的優(yōu)化來提高準(zhǔn)確率。
這是對(duì)于提高準(zhǔn)確率來說,十分重要的過程。
清楚標(biāo)注錯(cuò)誤的數(shù)據(jù)
我們知道深度學(xué)習(xí)是一種監(jiān)督學(xué)習(xí)算法,這樣就會(huì)涉及到人工標(biāo)注的數(shù)據(jù)集。如果人來操作,那么就有可能數(shù)據(jù)標(biāo)注錯(cuò)誤。雖然是小概率事件,但是偶爾也會(huì)發(fā)生。如果用錯(cuò)誤的數(shù)據(jù)集來訓(xùn)練,是否會(huì)產(chǎn)生不良影響呢?
深度學(xué)習(xí)算法對(duì)于這一點(diǎn)的魯棒性是比較強(qiáng)的。只要數(shù)據(jù)集夠大,即使有一點(diǎn)的數(shù)據(jù)標(biāo)注錯(cuò)誤也不會(huì)有太大影響。只要這些錯(cuò)誤樣本離隨機(jī)錯(cuò)誤不太遠(yuǎn),那么放著這些錯(cuò)誤不管可能也沒問題,而不要花太多時(shí)間修復(fù)它們。
我這里先警告一下,深度學(xué)習(xí)算法對(duì)隨機(jī)誤差很健壯,但對(duì)系統(tǒng)性的錯(cuò)誤就沒那么健壯了。所以比如說,如果做標(biāo)記的人一直把白色的狗標(biāo)記成貓,那就成問題了。因?yàn)槟愕姆诸惼鲗W(xué)習(xí)之后,會(huì)把所有白色的狗都分類為貓。但隨機(jī)錯(cuò)誤或近似隨機(jī)錯(cuò)誤,對(duì)于大多數(shù)深度學(xué)習(xí)算法來說不成問題。
如果你還記得設(shè)立開發(fā)集的目標(biāo)的話,開發(fā)集的主要目的是,你希望用它來從兩個(gè)分類器A和B中選擇一個(gè)。所以當(dāng)你測試兩個(gè)分類器A和B時(shí),在開發(fā)集上一個(gè)有2.1%錯(cuò)誤率,另一個(gè)有1.9%錯(cuò)誤率,但是你不能再信任開發(fā)集了,因?yàn)樗鼰o法告訴你這個(gè)分類器是否比這個(gè)好,因?yàn)?.6%的錯(cuò)誤率是標(biāo)記出錯(cuò)導(dǎo)致的。
現(xiàn)在如果你決定要去修正開發(fā)集數(shù)據(jù),手動(dòng)重新檢查標(biāo)簽,并嘗試修正一些標(biāo)簽,這里還有一些額外的方針和原則需要考慮。首先,我鼓勵(lì)你不管用什么修正手段,都要同時(shí)作用到開發(fā)集和測試集上,我們之前討論過為什么,開發(fā)和測試集必須來自相同的分布。開發(fā)集確定了你的目標(biāo),當(dāng)你擊中目標(biāo)后,你希望算法能夠推廣到測試集上,這樣你的團(tuán)隊(duì)能夠更高效的在來自同一分布的開發(fā)集和測試集上迭代。
吳教主深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)課程總綱
總結(jié)
以上是生活随笔為你收集整理的3.2.1 造成误差的原因分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.1.5 改善模型的表现
- 下一篇: 3.2.3 如何解决数据不匹配问题