《统计学习方法》读书笔记(1)---学习的要素
學習的三要素
? ? 方法 = 模型 + 策略 + 算法
?
模 型
? ? 所要學習的條件概率分布或決策函數,模型的假設空間包含所有可能的條件概率分布或決策函數。
? ??\(F = \{ ~f~ | ~Y = f(X)~ \}\), ?\(F = \{ ~f~ | ~Y = f_{\theta}(X), \theta \in R^{n}~ \}\)
? ? 條件概率
? ? \(F = \{ ~P~ | ~P(Y~|~X)~ \} \), \(F = \{ ~P~ | ~P_{\theta}(Y~|~X), \theta \in R^{n}~ \}\)
?
策 略
? ? 為了從假設空間中選取最優模型,需要引用一些手段來評估模型。
1)損失函數
? ? 損失函數度量模型一次預測的好壞,常用的損失函數有:
? ? 1. 0 - 1損失函數(0-1 loss function)
? ? ? ? \(L(Y,~f(x)) = \left\{\begin{array}{lcl} {~1, ~Y \neq f(x)~} \\ {~0, ~Y = f(x)~} \end{array} \right \}?\)
? ? 2. 平方損失函數(quadratic loss function)
? ? ? ? \(L(Y,~f(x)) = (Y~-~f(x))^{2}\)
? ? 3. 絕對損失函數(absolute loss function)
? ? ? ? \(L(Y,~f(x)) = |Y~-~f(x)|\)
? ? 4. 對數損失函數(logarithmic loss function)或對數似然損失函數(log-likelihood loss function)
? ? ? ? \(L(Y,~f(x)) = -\log P(Y~|~x)\)
?
2)風險函數
? ? 損失函數值越小,模型就越好。由于模型的輸入,輸出\((X,~Y)\)是隨機變量,遵循聯合分布\(P(X,~Y)\),所以損失函數的期望是
? ? ? ? \(R_{exp}(f) = E_{p}[L(Y,~f(X))] = \int _{x \times y}L(y,~f(x))P(x,~y)dxdy\)
? ? 這是理論上模型\(f(x)\)關于聯合分布\(P(X,~Y)\)的平均意義下的損失,稱為風險函數(risk function)或期望損失(expected loss)。學習的目標就是選擇期望風險最小的模型,由于聯合分布\(P(Y~|~X)\)是未知的,\(R_{exp}(f)\)不能直接計算。
? ? 模型\(f(x)\)關于訓練數據集的平均損失稱為經驗風險(empirical risk)或經驗損失(empirical loss),記作\(R_{emp}\):
? ? ? ? \(R_{emp}(f) = \frac{1}{N} \sum\limits_{i=1}^{n} L(y_{i},~f(x_{i}))\)
? ? 期望風險\(R_{exp}(f)\)是模型關于聯合分布的期望損失,經驗風險\(R_{emp}(f)\)是模型關于訓練樣本集的平均損失。根據大數定律,當樣本容量N趨于無窮時,經驗風險\(R_{emp}f(x)\)趨于期望風險\(R_{exp}f(x)\),所以一個很自然的想法是用經驗風險估計期望風險。但是,由于現實中訓練樣本數目有限甚至很小,所以用經驗風險估計期望風險常常并不理想,要對經驗風險進行一定的矯正,這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
?
3)經驗風險最小化
? ? 在假設空間,損失函數以及訓練數據集確定的情況下,經驗風險函數式就可以確定,經驗風險最小化(empirical risk minimizatiion, ERM)的策略認為,經驗風險最小的模型是最優模型。
? ? ? \(\min\limits_{f \in F} \frac{1}{N} \sum\limits_{i=1}^{n} L(y_{i},~f(x_{i}))\)
? ? 當樣本容量是夠大時,經驗風險最小化能保證有很好的學習效果,在現實中被廣泛應用,比如,極大似然估計(maximum likelihood estimation)就是經驗風險最小化的一個例子,當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等價于極大似然估計。
? ? 但是,當樣本容量很小時,經驗風險最小化學習的效果就未必很好,會產生“過擬合(over-fitting)”現象。
?
4)結構化風險最小化
? ? 結構化風險最小化(structural risk minimization, SRM)是為了防止過擬合而提出來的策略。結構風險在經驗風險上加上表示模型復雜度的正則化項(regularizer)或罰項(penalty term)。在假設空間,損失函數以及訓練數據集確定的情況下,結構風險的定義是:
? ? ? ? \(R_{srm}(f) = \frac{1}{N} \sum\limits_{i=1}^{n}L(y_{i},~f(x_{i}))~+~ \lambda J(f)\)
? ? 其中\(J(f)\)為模型的復雜度,是定義在假設空間 F 上的泛函,模型 f 越復雜,復雜度\(J(f)\)就越大;反之,模型 f 越簡單,復雜度\(J(f)\)就越小,也就是說,復雜度表示了對復雜模型的懲罰,\(\lambda \geq 0\)是系數,用以權衡經驗風險和模型復雜度,結構風險小需要經驗風險與模型復雜度同時小,結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。
? ? 結構風險最小化的策略認為結構風險最小的模型是最優的模型:
? ? ? ? \(\min\limits_{f \in F} \frac{1}{N} \sum\limits_{i=1}^{n}L(y_{i},~f(x_{i}))~+~ \lambda J(f)\)
?
算 法
? ? 算法是指學習模型的具體計算方法,統計學習基于訓練數據集,根據學習策略,從假設空間中選擇最優模型,最后需要考慮用什么樣的計算方式求解最優模型。
轉載于:https://www.cnblogs.com/pennant/p/3304738.html
總結
以上是生活随笔為你收集整理的《统计学习方法》读书笔记(1)---学习的要素的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 离别与省
- 下一篇: 40款奇特的名片设计,吸引大家的眼球《上