當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授

發布時間：2025/4/5 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

線性回歸

首先，我們明確幾個常用的數學符號：

特征（feature）： $x_i$ ，比如，房屋的面積，臥室數量都算房屋的特征
特征向量（輸入）： $x$ ，一套房屋的信息就算一個特征向量，特征向量由特征組成， $xj(i)x^{(i)}_j$ 表示第 $i$ 個特征向量的第 $j$ 個特征。
輸出向量： $y$ ， $y^{(i)}$ 表示了第 $i$ 個輸入所對應的輸出
假設（hypothesis）：也稱為預測函數，比如一個線性預測函數是：

$h_θ(x)=θ_0+θ_1x_1+θ_2x_2+?+θ_nx_n=θ^Tx$

上面的表達式也稱之為回歸方程（regression equation）， $θ$ 為回歸系數，它是我們預測準度的基石。

誤差評估

之前我們說到，需要某個手段來評估我們的學習效果，即評估各個真實值 $y^{(i)}$ 與預測值 $h_θ(x^{(i)})$ 之間的差異。最常見的，我們通過最小均方（Least Mean Square） 來描述誤差：
$J(θ)=12m∑i=1m(hθ(x(i))?y(i))2,m為樣本數J(θ)=\frac{1}{2m}∑_{i=1}^m(h_θ(x^{(i)})?y^{(i)})^2,\quad m 為樣本數$

其矩陣表達為：
$J(θ)=12m(Xθ?y)T(Xθ?y)J(θ)=\frac {1}{2m}(Xθ?y)^T(Xθ?y)$

誤差評估的函數在機器學習中也稱為代價函數（cost function）。

批量梯度下降

在引入了代價函數后，解決了“有手段評估學習的正確性”的問題，下面我們開始解決“當學習效果不佳時，有手段能糾正我們的學習策略”的問題。

首先可以明確的是，該手段就是要反復調節 $θ$ 是的預測 $J (θ)$ 足夠小，以及使得預測精度足夠高，在線性回歸中，通常使用梯度下降（Gradient Descent） 來調節 $θ$ ：

$θj=θj?α??θjJ(θ),α為學習率θ_j=θ_j?\alpha \frac {?}{?θ_j}J(θ), \quad α 為學習率$

數學上，梯度方向是函數值下降最為劇烈的方向。那么，沿著 $J (θ)$ 的梯度方向走，我們就能接近其最小值，或者極小值，從而接近更高的預測精度。學習率 $α\alpha$ 是個相當玄乎的參數，其標識了沿梯度方向行進的速率，步子大了容易扯著蛋，很可能這一步就邁過了最小值。而步子小了，又會減緩我們找到最小值的速率。在實際編程中，學習率可以以 3 倍，10 倍這樣進行取值嘗試，如：
$α = 0.001, 0.003, 0.01 \dots 0.3, 1$

對于一個樣本容量為 $m$ 的訓練集，我們定義 $θ$ 的調優過程為：

$\quad\quad$ 重復直到收斂（Repeat until convergence）：
$θj=θj+α1m∑i=1m(y(i)?hθ(x(i)))xj(i)θ_j=θ_j+\alpha \frac1{m}∑_{i=1}^m(y^{(i)}?h_θ(x^{(i)}))x^{(i)}_j$

該函數的矩陣（向量）表達如下：
$θj=θj+α1m(y?Xθ)Txjθ_j=θ_j+\alpha \frac{1}{m}(y-Xθ)^Tx_j$

其中，代價函數為：
$θj=12m∑i=1m(hθ(x(i))?y(i))2θ_j=\frac1{2m}∑_{i=1}^m(h_θ(x^{(i)})?y^{(i)})^2$

我們稱該過程為基于最小均方（LMS）的批量梯度下降法（Batch Gradient Descent），一方面，該方法雖然可以收斂到最小值，但是每調節一個 $θ_j$ ，都不得不遍歷一遍樣本集，如果樣本的體積 $m$ 很大，這樣做無疑開銷巨大。但另一方面，因為其可化解為向量型表示，所以就能利用到并行計算優化性能。

隨機梯度下降

鑒于批量梯度下降的性能問題，又引入了隨機梯度下降（Stochastic Gradient Descent）：
$\quad until\quad convergence）:$

$\quad i=1\quad to\quad m:$

$θj=θj+α(y(i)?hθ(x(i)))xj(i)θ_j=θ_j+\alpha (y^{(i)}?h_θ(x^{(i)}))x^{(i)}_j$

可以看到，在隨機梯度下降法中，每次更新 $θ_j$ 只需要一個樣本： $x^{(i)},y^{(i)})$ 。即便在樣本集容量巨大時，我們也很可能迅速獲得最優解，此時 SGD 能帶來明顯的性能提升。

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 1.1 回归问题-机器学习笔记-斯坦福吴
下一篇： 1.3 程序示例--梯度下降-机器学习笔