泛化能力
1、泛化能力
概念:在機器學習方法中,泛化能力通俗來講就是指學習到的模型對未知數據的預測能力。在實際情況中,我們通常通過測試誤差來評價學習方法的泛化能力。如果在不考慮數據量不足的情況下出現模型的泛化能力差,那么其原因基本為對損失函數的優化沒有達到全局最優。
舉個例子:
? 高中生每天各種做題,五年高考三年模擬一遍遍的刷,為的什么,當然是想高考能有個好成績。高考試題一般是新題,誰也沒做過,平時的刷題就是為了掌握試題的規律,能夠舉一反三、學以致用,這樣面對新題時也能從容應對。這種規律的掌握便是泛化能力,有的同學很聰明,考上名校,很大程度上是該同學的泛化能力好。
? 考試成績差的同學,有這三種可能:一、泛化能力弱,做了很多題,始終掌握不了規律,不管遇到老題新題都不會做;二、泛化能力弱,做了很多題,只會死記硬背,一到考試看到新題就蒙了;三、完全不做題,考試全靠瞎蒙。機器學習中,第一類情況稱作欠擬合,第二類情況稱作過擬合,第三類情況稱作不收斂。
機器學習的目標是對從真實概率分布(已隱藏)中抽取的新數據做出良好預測。遺憾的是,模型無法查看整體情況;模型只能從訓練數據集中取樣。如果某個模型在擬合當前樣本方面表現良好,那么你如何相信該模型也會對從未見過的樣本做出良好預測呢?
奧卡姆剃刀定律在機器學習方面的運用如下:
- 機器學習模型越簡單,良好的實證結果就越有可能不僅僅基于樣本的特性。
現今,我們已將奧卡姆剃刀定律正式應用于統計學習理論和計算學習理論領域。這些領域已經形成了泛化邊界,即統計化描述模型根據以下因素泛化到新數據的能力:
- 模型的復雜程度
- 模型在處理訓練數據方面的表現
2、泛化誤差
根據PAC理論:
? 泛化誤差可以直觀理解為以e指數的形式正比于假設空間的復雜度,反比于數據量的個數。就是數據量越多,模型效果越好,模型假設空間復雜度越簡單,模型效果越好。
3、提高泛化能力
提高泛化能力的方式大致有三種:1.增加數據量。2.正則化。3.凸優化。
總得來說:
泛化能力可以認為就是舉一反三的能力。
總結
- 上一篇: petalinux uboot源码怎么打
- 下一篇: FullCodePress采访:澳大利亚