當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学习及监督学习概论

發布時間：2025/4/5 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学习及监督学习概论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.統計學習

簡介：統計學習（statistical learning）是關于計算機基于數據構建概率統計模型并運用模型對數據進行預測與分析的一門學科。統計學習由監督學習（supervised learning）、無監督學習（unsupervised learning）和強化學習（reinforcement learning）等組成。

1）監督學習

習慣上輸入變量寫作 $X$ ，輸出變量寫作 $Y$ 。輸入與輸出變量的取值用小寫字母表示，輸入變量的取值寫作 $x$ ,輸出變量的取值寫作 $y$ 。變量可以是標量或向量，都用相同類型字母表示。除特別聲明，本書中向量均為列向量。輸入實例 $x$ 的特征向量記作 $x=(x^{(1)},x^{(2)},...x^{(i)},...x^{(n)})^T$
$x^{(i)}$ 表示 $x$ 的第 $i$ 個特征。注意 $x^{(i)}$ 與 $x_i$ 不同，常用 $x_i$ 表示多個輸入變量中的第 $i$ 個變量，即 $x_i=(x_i^{(1)},x_i^{(2)},...x_i^{(n)})^T$
訓練數據集通常表示為 $T$ ={ $x_1,y_1),(x_2,y_2),...,(x_N,y_N)$ }

2）泰勒中值定理：

如果函數 $f (x)$ 在含有 $x_0$ 的某個開區間 $(a, b)$ 內具有直到 $(n + 1)$ 階導數，則對任一 $x∈(a,b)x\in(a,b)$ ，有 $f(x)=f(x0)+f′(x0)(x?x0)+f′′(x0)2!(x?x0)2+...+fn(x0)n!(x?x0)n+Rn(x)f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac {f''(x_0)}{2!}(x-x_0)^2+...+\frac {f^n(x_0)}{n!}(x-x_0)^n+R_n(x)$ 稱之為 $f (x)$ 按 $x-x_0)$ 的冪展開的 $n$ 次泰勒多項式，其中 $Rn(x)=f(n+1)(ξ)(n+1)!(x?x0)n+1R_n(x)=\frac {f^{(n+1)}(\xi)}{(n+1)!}(x-x_0)^{n+1}$ , $R_n(x)$ 稱之為拉格朗日型余項，這里 $ξ\xi$ 是 $x_0$ 與 $x$ 之間的某個值。

帶有拉格朗日型余項的麥克勞林公式

如果取 $x_0=0$ ,則 $ξ\xi$ 在0與 $x$ 之間，因此可以令 $ξ=θx(0<θ<1)\xi=\theta x(0<\theta<1)$ ，從而泰勒公式變成較簡單的形式，即所謂帶有拉格朗日型余項的麥克勞林公式 $f(x)=f(0)+f′(0)x+f′′(0)2!x2+...+fn(0)n!xn+f(n+1)(θx)(n+1)!x(n+1),0<θ<1f(x)=f(0)+f'(0)x+\frac{f''(0)}{2!}x^2+...+\frac{f^n(0)}{n!}x^n+\frac{f^{(n+1)}(\theta x)}{(n+1)!}x^{(n+1)},0<\theta<1$

帶有佩亞諾型余項的 $n$ 階泰勒公式

$f (x)$ 按 $x-x_0)$ 的冪展開的帶有佩亞諾型余項的 $n$ 階泰勒公式 $f(x)=f(x0)+f′(x0)(x?x0)+f′′(x0)2!(x?x0)2+...+fn(x0)n!(x?x0)n+Rn(x)f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac {f''(x_0)}{2!}(x-x_0)^2+...+\frac {f^n(x_0)}{n!}(x-x_0)^n+R_n(x)$ ，其中 $R_n(x)=o[(x-x_0)^n]$

3）損失函數和風險函數

監督學習問題時在假設空間 $F$ 中選取模型 $f$ 作為決策函數，對于給定的輸入 $X$ ，由 $f (X)$ 給出相應的輸出 $Y$ ，這個輸出的預測值 $f (X)$ 與真實值 $Y$ 可能一致也可能不一致，用一個損失函數（loss function）或代價函數（cost function）來度量預測錯誤的程度。損失函數是 $f (X)$ 和 $Y$ 的非負實值函數，記作 $L (Y, f (X))$
常用的損失函數：
1）0-1損失函數（0-1 loss function） $\begin{cases} 1, & \text { $Y\neq f(X)$} \\ 0, & \text{$Y=f(X)$ } \end{cases}$
2）平方損失函數（quadratic loss function） $L(Y,f(X))=(Y-f(X))^2$
3）絕對損失函數（absolute loss function） $L(Y,f(X))=∣Y?f(X)∣L(Y,f(X))=\mid Y-f(X)\mid$
4）對數損失函數（logarithmic loss function）或對數似然損失函數（log-likelihood loss function） $L(Y,P(Y∣X))=?logP(Y∣X)L(Y,P(Y\mid X))=-logP(Y\mid X)$

損失函數值越小，模型就越好，由于模型的輸入、輸出 $(X, Y)$ 是隨機變量，遵循聯合概率分布 $P (X, Y)$ ,所以損失函數的期望是 $Rexp(f)=Ep[L(Y,f(X))]=∫xyL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_p[L(Y,f(X))]=\int_{xy}L(y,f(x))P(x,y){\rm d}x{\rm d}y$ ,這是理論上模型 $f (X)$ 關于聯合分布的平均意義下的損失，稱為風險損失函數（risk function）或期望損失（expected loss）

給定一個訓練數據集： $T$ ={ $x_1,y_1),(x_2,y_2),...,(x_N,y_N)$ }，模型 $f (X)$ 關于訓練數據集的平均損失稱為經驗風險（empirical risk）或者經驗損失（empirical loss），記作 $R_{emp}$ ： $Remp(f)=1N∑i=1NL(yi,f(xi))R_{emp}(f)=\frac1N\sum_{i=1}^NL(y_i,f(x_i))$
期望風險 $R_{exp}(f)$ 是模型關于聯合分布的期望損失，經驗風險 $R_{emp}(f)$ 是模型關于訓練樣本集的平均損失。根據大數定律，當樣本容量N趨于無窮時，經驗風險 $R_{emp}(f)$ 趨于期望風險 $R_{exp}(f)$ ，所以一個很自然的想法是用經驗風險估計期望風險。但是，由于現實中訓練樣本數目有限，甚至很小，所以用經驗風險估計期望風險并不理想，要對經驗風險進行一定的矯正。這就關系到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。
正則化：模型選擇的典型方法是正則化（regularization）。正則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項（regularizer）或罰項（penalty term）。正則化項一般是模型復雜度的單調遞增函數，模型越復雜，正則化值越大。比如，正則化項可以是模型參數向量的范數。正則化一般具有如下形式： $minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)\underset{f\in\mathcal{F}}{min}\frac1N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$ 其中第1項是經驗風險，第2項是正則化項， $λ?0\lambda\geqslant0$ 為調整兩者之間關系的系數。正則化項可以取不同的形式，例如，回歸問題中，損失函數是評分損失，正則化項可以是參數向量的 $L_2$ 范數： $L(w)=1N∑i=1N(f(xi;w)?yi)2+λ2∣∣w∣∣2L(w)=\frac1N\sum_{i=1}^N(f(x_i;w)-y_i)^2+\frac \lambda 2{\mid \mid w \mid \mid}^2$ 這里， $∣ ∣ w ∣ ∣$ 表示參數向量 $w$ 的 $L_2$ 范數。正則化項也可以是參數向量的 $L_1范數$ ： $L(w)=1N∑i=1N(f(xi;w)?yi)2+λ∣∣w∣∣1L(w)=\frac1N\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda {\mid \mid w \mid \mid}_1$ 這里， $w||_1$ 表示參數向量 $w$ 的 $L_1$ 范數
第一項的經驗風險較小的模型可能較復雜（有多個非零參數），這時第2項的模型復雜度會較大。正則化的作用是選擇經驗風險與模型復雜度同時較小的模型。
${0范數：向量中非0元素的個數1范數：為絕對值之和2范數：通常意義上的模\begin{cases} 0范數：向量中非0元素的個數\\ 1范數：為絕對值之和\\ 2范數：通常意義上的模\\ \end{cases}$

總結

以上是生活随笔為你收集整理的统计学习及监督学习概论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

概论