日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

深度学习中的欠拟合和过拟合简介

發(fā)布時(shí)間:2023/11/27 生活经验 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习中的欠拟合和过拟合简介 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

通常情況下,當(dāng)我們訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),我們可以使用某個(gè)訓(xùn)練集,在訓(xùn)練集上計(jì)算一些被稱為訓(xùn)練誤差(training error)的度量誤差,目標(biāo)是降低訓(xùn)練誤差。機(jī)器學(xué)習(xí)和優(yōu)化不同的地方在于,我們也希望泛化誤差(generalization error)(也被稱為測(cè)試誤差(test error))很低。泛化誤差被定義為新輸入的誤差期望。這里,期望的計(jì)算基于不同的可能輸入,這些輸入采自于系統(tǒng)在現(xiàn)實(shí)中遇到的分布。

通常,我們度量模型在訓(xùn)練集中分出來(lái)的測(cè)試集(test set)樣本上的性能,來(lái)評(píng)估機(jī)器學(xué)習(xí)模型的泛化誤差。

當(dāng)我們只能觀測(cè)到訓(xùn)練集時(shí),我們?nèi)绾尾拍苡绊憸y(cè)試集的性能呢?統(tǒng)計(jì)學(xué)習(xí)理論(statistical learning theory)提供了一些答案。如果訓(xùn)練集和測(cè)試集的數(shù)據(jù)是任意收集的,那么我們能夠做的確實(shí)很有限。如果我們可以對(duì)訓(xùn)練集和測(cè)試集數(shù)據(jù)的收集方式有些假設(shè),那么我們能夠?qū)λ惴ㄗ鲂└倪M(jìn)。

訓(xùn)練集和測(cè)試集數(shù)據(jù)通過數(shù)據(jù)集上被稱為數(shù)據(jù)生成過程(data generating process)的概率分布生成。通常,我們會(huì)做一系列被統(tǒng)稱為獨(dú)立同分布假設(shè)的假設(shè)。該假設(shè)是說,每個(gè)數(shù)據(jù)集中的樣本都是彼此相互獨(dú)立的(independent),并且訓(xùn)練集和測(cè)試集是同分布的(identically distributed),采樣自相同的分布。這個(gè)假設(shè)使我們能夠在單個(gè)樣本的概率分布描述數(shù)據(jù)生成過程。然后相同的分布可以用來(lái)生成每一個(gè)訓(xùn)練樣本和每一個(gè)測(cè)試樣本。我們將這個(gè)共享的潛在的分布稱為數(shù)據(jù)生成分布(data generating distribution)。我們能觀察到訓(xùn)練誤差和測(cè)試誤差之間的直接聯(lián)系是,隨機(jī)模型訓(xùn)練誤差的期望和該模型測(cè)試誤差的期望是一樣的。假設(shè)我們有概率分布p(x,y),從中重復(fù)采樣生成訓(xùn)練集和測(cè)試集。對(duì)于某個(gè)固定的w,訓(xùn)練集誤差的期望恰好和測(cè)試集誤差的期望一樣,這是因?yàn)檫@兩個(gè)期望的計(jì)算都使用了相同的數(shù)據(jù)集生成過程。這兩種情況的唯一區(qū)別是數(shù)據(jù)集的名字不同。

當(dāng)然,當(dāng)我們使用機(jī)器學(xué)習(xí)算法時(shí),我們不會(huì)提前固定參數(shù),然后從數(shù)據(jù)集中采樣。我們會(huì)在訓(xùn)練集上采樣,然后挑選參數(shù)去降低訓(xùn)練集誤差,然后再在測(cè)試集上采樣。在這個(gè)過程中,測(cè)試誤差期望會(huì)大于或等于訓(xùn)練誤差期望。以下是決定機(jī)器學(xué)習(xí)算法效果是否好的因素:降低訓(xùn)練誤差、縮小訓(xùn)練誤差和測(cè)試誤差的差距。

這兩個(gè)因素對(duì)應(yīng)機(jī)器學(xué)習(xí)的兩個(gè)主要挑戰(zhàn):欠擬合(underfitting)和過擬合(overfitting)。欠擬合是指模型不能在訓(xùn)練集上獲得足夠低的誤差。而過擬合是指訓(xùn)練誤差和測(cè)試誤差之間的差距太大。

通過調(diào)整模型的容量(capacity),我們可以控制模型是否偏向于過擬合或者欠擬合。通俗地,模型的容量是指其擬合各種函數(shù)的能力。容量低的模型可能很難擬合訓(xùn)練集。容量高的模型可能會(huì)過擬合,因?yàn)橛涀×瞬贿m用于測(cè)試集的訓(xùn)練集性質(zhì)。

一種控制訓(xùn)練算法容量的方法是選擇假設(shè)空間(hypothesis space),即學(xué)習(xí)算法可以選擇為解決方案的函數(shù)集。例如,線性回歸函數(shù)將關(guān)于其輸入的所有線性函數(shù)作為假設(shè)空間。

當(dāng)機(jī)器學(xué)習(xí)算法的容量適合于所執(zhí)行任務(wù)的復(fù)雜度和所提供訓(xùn)練數(shù)據(jù)的數(shù)量時(shí),算法效果通常會(huì)最佳。容量不足的模型不能解決復(fù)雜任務(wù)。容量高的模型能夠解決復(fù)雜的任務(wù),但是當(dāng)其容量高于任務(wù)所需時(shí),有可能會(huì)過擬合。

從預(yù)先知道的真實(shí)分布p(x,y)預(yù)測(cè)而出現(xiàn)的誤差被稱為貝葉斯誤差(Bayes error)。訓(xùn)練誤差和泛化誤差會(huì)隨訓(xùn)練集的大小發(fā)生變化。泛化誤差的期望從不會(huì)因?yàn)橛?xùn)練樣本數(shù)目的增加而增加。對(duì)于非參數(shù)模型而言,更多的數(shù)據(jù)會(huì)得到更好的泛化能力,直到達(dá)到最佳可能的泛化誤差。任何模型容量小于最優(yōu)容量的固定參數(shù)模型會(huì)漸進(jìn)到大于貝葉斯誤差的誤差值。值得注意的是,具有最優(yōu)容量的模型仍然有可能在訓(xùn)練誤差和泛化誤差之間存在很大的差距。在這種情況下,我們可以通過收集更多的訓(xùn)練樣本來(lái)縮小差距。

正則化是指我們修改學(xué)習(xí)算法,使其降低泛化誤差而非訓(xùn)練誤差。

過擬合(overfitting):是指在模型參數(shù)擬合過程中的問題,由于訓(xùn)練數(shù)據(jù)包含抽樣誤差,訓(xùn)練時(shí),復(fù)雜的模型將抽樣也考慮在內(nèi),將抽樣誤差也進(jìn)行了很好的擬合。具體表現(xiàn)就是最終模型在訓(xùn)練集上效果好;在測(cè)試集上效果差。模型泛化能力弱。

我們擬合的模型一般是用來(lái)預(yù)測(cè)未知的結(jié)果(不在訓(xùn)練集內(nèi)),過擬合雖然在訓(xùn)練集上效果好,但是在實(shí)際使用時(shí)(測(cè)試集)效果差。同時(shí),在很多問題上,我們無(wú)法窮盡所有狀態(tài),不可能將所有情況都包含在訓(xùn)練集上。所以,必須要解決過擬合問題。

機(jī)器學(xué)習(xí)算法為了滿足盡可能復(fù)雜的任務(wù),其模型的擬合能力一般遠(yuǎn)遠(yuǎn)高于問題復(fù)雜度,也就是說,機(jī)器學(xué)習(xí)算法有”擬合出正確規(guī)則的前提下,進(jìn)一步擬合噪聲”的能力。而傳統(tǒng)的函數(shù)擬合問題(如機(jī)器人系統(tǒng)辨識(shí)),一般都是通過經(jīng)驗(yàn)、物理、數(shù)學(xué)等推導(dǎo)出一個(gè)含參模型,模型復(fù)雜度確定了,只需要調(diào)整個(gè)別參數(shù)即可,模型”無(wú)多余能力”擬合噪聲。

防止過擬合:

(1)、獲取更多數(shù)據(jù):這是解決過擬合最有效的方法,只要給足夠多的數(shù)據(jù),讓模型”看見”盡可能多的”例外情況”,它就會(huì)不斷修正自己,從而得到更好的結(jié)果。

如何獲取更多數(shù)據(jù),可以有以下幾個(gè)方法:A、從數(shù)據(jù)源頭獲取更多數(shù)據(jù):例如物體分類,就再多拍些照片;但是,在很多情況下,大幅增加數(shù)據(jù)本身并不容易;另外,我們也不清楚獲取多少數(shù)據(jù)才算夠。B、根據(jù)當(dāng)前數(shù)據(jù)集估計(jì)數(shù)據(jù)分布參數(shù),使用該分布產(chǎn)生更多數(shù)據(jù):這個(gè)一般不用,因?yàn)楣烙?jì)分布參數(shù)的過程也會(huì)代入抽樣誤差。C、數(shù)據(jù)增強(qiáng)(Data Augmentation):通過一定規(guī)則擴(kuò)充數(shù)據(jù)。例如在物體分類問題里,物體在圖像中的位置、姿態(tài)、尺度、整體圖片明暗度等都不會(huì)影響分類結(jié)果。我們就可以通過圖像平移、翻轉(zhuǎn)、縮放、切割等手段將數(shù)據(jù)庫(kù)成倍擴(kuò)充。

(2)、使用合適的模型:過擬合主要是有兩個(gè)原因造成的:數(shù)據(jù)太少+模型太復(fù)雜。所以,我們可以通過使用合適復(fù)雜度的模型來(lái)防止過擬合的問題,讓其足夠擬合真正的規(guī)則,同時(shí)又不至于擬合太多抽樣誤差。

對(duì)于神經(jīng)網(wǎng)絡(luò)而言,我們可以從以下四個(gè)方面來(lái)限制網(wǎng)絡(luò)能力:A、網(wǎng)絡(luò)結(jié)構(gòu)(Architecture):減少網(wǎng)絡(luò)的層數(shù)、神經(jīng)元個(gè)數(shù)等均可以限制網(wǎng)絡(luò)的擬合能力。B、訓(xùn)練時(shí)間(Early stopping):對(duì)于每個(gè)神經(jīng)元而言,其激活函數(shù)在不同區(qū)間的性能是不同的。當(dāng)網(wǎng)絡(luò)權(quán)值較小時(shí),神經(jīng)元的激活函數(shù)工作在線性區(qū),此時(shí)神經(jīng)元的擬合能力較弱(類似線性神經(jīng)元)。我們?cè)诔跏蓟W(wǎng)絡(luò)的時(shí)候一般都是初始為較小的權(quán)值。訓(xùn)練時(shí)間越長(zhǎng),部分網(wǎng)絡(luò)權(quán)值可能越大。如果我們?cè)诤线m時(shí)間停止訓(xùn)練,就可以將網(wǎng)絡(luò)的能力限制在一定范圍內(nèi)。C、限制權(quán)值(weight-decay),也叫正則化(regularization):這類方法直接將權(quán)值的大小加入到Cost里,在訓(xùn)練的時(shí)候限制權(quán)值變大。D、增加噪聲Noise:在輸入中加噪聲:噪聲會(huì)隨著網(wǎng)絡(luò)傳播,按照權(quán)值的平方放大,并傳播到輸出層,對(duì)誤差Cost產(chǎn)生影響。在權(quán)值上加噪聲:在初始化網(wǎng)絡(luò)的時(shí)候,用0均值的高斯分布作為初始化。對(duì)網(wǎng)絡(luò)的響應(yīng)加噪聲:如在前向傳播過程中,讓神經(jīng)元的輸出變?yōu)閎inary或random。顯然,這種有點(diǎn)亂來(lái)的做法會(huì)打亂網(wǎng)絡(luò)的訓(xùn)練過程,讓訓(xùn)練更慢,但據(jù)Hinton說,在測(cè)試集上效果會(huì)有顯著提升。

(3)、結(jié)合多種模型:簡(jiǎn)而言之,訓(xùn)練多個(gè)模型,以每個(gè)模型的平均輸出作為結(jié)果。從N個(gè)模型里隨機(jī)選擇一個(gè)作為輸出的期望誤差,會(huì)比所有模型的平均輸出的誤差大。A、Bagging:是分段函數(shù)的概念,用不同的模型擬合不同部分的訓(xùn)練集。以隨機(jī)森林(rand forests)為例,就是訓(xùn)練了一堆互不關(guān)聯(lián)的決策樹。一般不單獨(dú)使用神經(jīng)網(wǎng)絡(luò)做Bagging。B、Boosting:既然訓(xùn)練復(fù)雜神經(jīng)網(wǎng)絡(luò)比較慢,那我們就可以只使用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)(層數(shù)、神經(jīng)元數(shù)限制等)。通過訓(xùn)練一系列簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),加權(quán)平均其輸出。C、Dropout:這是一個(gè)很高效的方法。在訓(xùn)練時(shí),每次隨機(jī)忽略隱層的某些節(jié)點(diǎn),這樣,我們相當(dāng)于隨機(jī)從模型中采樣選擇模型,同時(shí),由于每個(gè)網(wǎng)絡(luò)只見過一個(gè)訓(xùn)練數(shù)據(jù)(每次都是隨機(jī)的新網(wǎng)絡(luò)),所以類似bagging的做法。

(4)、貝葉斯方法。

在統(tǒng)計(jì)學(xué)中,過擬合(overfitting,或稱過度擬合)現(xiàn)象是指在擬合一個(gè)統(tǒng)計(jì)模型時(shí),使用過多參數(shù)。對(duì)比于可獲取的數(shù)據(jù)總量來(lái)說,一個(gè)荒謬的模型只要足夠復(fù)雜,是可以完美地適應(yīng)數(shù)據(jù)。過擬合一般可以視為違反奧卡姆剃刀原則。當(dāng)可選擇的參數(shù)的自由度超過數(shù)據(jù)所包含信息內(nèi)容時(shí),這會(huì)導(dǎo)致最后(擬合后)模型使用任意的參數(shù),這會(huì)減少或破壞模型一般化的能力更甚于適應(yīng)數(shù)據(jù)。過擬合的可能性不只取決于參數(shù)個(gè)數(shù)和數(shù)據(jù),也跟模型架構(gòu)與數(shù)據(jù)的一致性有關(guān)。此外對(duì)比于數(shù)據(jù)中的預(yù)期的噪聲或錯(cuò)誤數(shù)量,跟模型錯(cuò)誤的數(shù)量也有關(guān)。

在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中,為了避免過擬合現(xiàn)象,需要使用額外的技巧,如交叉驗(yàn)證、提早停止、貝斯信息量準(zhǔn)則、赤池信息量準(zhǔn)則或模型比較等。

以上內(nèi)容主要摘自:?《深度學(xué)習(xí)中文版》?、知乎?和 ?維基百科


GitHub:?https://github.com/fengbingchun/NN_Test

總結(jié)

以上是生活随笔為你收集整理的深度学习中的欠拟合和过拟合简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。