當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习2 分类与逻辑回归

發(fā)布時間：2023/12/14 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习2 分类与逻辑回归小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? 分類問題和線性回歸問題很像，只是在分類問題中我們預(yù)測的 y 值包含在一個小的離散數(shù)據(jù)集里。首先，認(rèn)識一下二元分類(binary classification)，在二元分類中， $y$ 的取值只能是 0 和 1。例如，我們要做一個垃圾郵件分類器，則 x(i) 為郵件的特征，而對于 y，當(dāng)它為1，則為垃圾郵件，為0 則表示郵件為正常郵件。所以 0 稱之為負(fù)類（negative class），1為正類（positive class）。

邏輯回歸

? 我們知道線性回歸問題只能預(yù)測連續(xù)的值，而分類問題，往往是分成幾個類，或者是某一類（ $y = 1$ ），不是某一類（y=0）。對于后者，若已知 y∈{0,1} ，則 hθ(x) 大于1，或者小于0都是沒有意義的。To fix this，我們選擇：

hθ(x)=g(θTx)=11+eθTxhθ(x)=g(θTx)=11+eθTx

g(z)=11+ezg(z)=11+ez

g(z) 是邏輯函數(shù)，或者叫==sigmoid函數(shù)== ，如下圖所示。

? 雖然其他平滑函數(shù)，只要能使 hθ(x) 的值限制到 [0,1] 也是可以的，其實(shí)選擇sigmoid函數(shù)是很自然的，具體將在講GLM 算法的時候講。

? g(z) 的導(dǎo)數(shù)有個很重要的屬性：

g(z)′====ddz11+eze?z(1+e?z)211+e?z?1(1+e?z)2g(z)[1?g(z)](119)(120)(121)(122)(119)g(z)′=ddz11+ez(120)=e?z(1+e?z)2(121)=11+e?z?1(1+e?z)2(122)=g(z)[1?g(z)]
? 那么，給定邏輯回歸模型，我們?nèi)绾螖M合出合適的

θθ ? 根據(jù)由最大似然估計得到 LSR，我們賦予分類模型一組概率假設(shè)，然后通過最大似然函數(shù)得到合適的參數(shù)。

p(y=1|x;θ)p(y=0|x;θ)==hθ(x)1?hθ(x)(123)(124)(123)p(y=1|x;θ)=hθ(x)(124)p(y=0|x;θ)=1?hθ(x)
? 合并起來可以寫成下面的形式：

p(y|x;θ)=(hθ(x))y(1?hθ(x))1?yp(y|x;θ)=(hθ(x))y(1?hθ(x))1?y
? 假設(shè)

mm 個訓(xùn)練樣本是獨(dú)立的，則參數(shù)的似然函數(shù)如下：

L (θ) = = = p (y ? | X; θ) \prod i = 1 m p (y (i) | x (i); θ) \prod i = 1 m (h θ (x (i))) y (i) (1 ? h θ (x (i))) 1 ? y (i) (125) (126) (127)

?(θ)==lnL(θ)∑i=1m[y(i)lnhθ(x(i))+(1?y(i))ln(1?hθ(x(i)))](31)(32)(31)?(θ)=lnL(θ)(32)=∑i=1m[y(i)lnhθ(x(i))+(1?y(i))ln(1?hθ(x(i)))]

? 最大化似然函數(shù)的方法有兩種。一種和線性回的推導(dǎo)相似，梯度上升的方法；另一種是牛頓法。

（1）梯度上升法

? 用向量來表示的話，我們可以用下式來更新參數(shù)：

θ:=θ+α?θ?(θ)θ:=θ+α?θ?(θ)
? 需要注意的是，這里是 + 不是 - ，因?yàn)槭亲畲蠡迫缓瘮?shù)。下面先假設(shè)只有一個訓(xùn)練樣本

(x,y)(x,y) ，使用隨機(jī)梯度上升規(guī)則。

??(θ)?θj=====??θj[ylnhθ(x)+(1?y)ln(1?hθ(x))][y1hθ(x)?(1?y)11?hθ(x)]?hθ(x)?θj[y1g(θTx)?(1?y)11?g(θTx)]g(θTx)(1?g(θTx))?θTx?θj(y(1?g(θTx))?(1?y)g(θTx))xj(y?hθ(x))xj(33)(34)(35)(36)(37)(33)??(θ)?θj=??θj[ylnhθ(x)+(1?y)ln(1?hθ(x))](34)=[y1hθ(x)?(1?y)11?hθ(x)]?hθ(x)?θj(35)=[y1g(θTx)?(1?y)11?g(θTx)]g(θTx)(1?g(θTx))?θTx?θj(36)=(y(1?g(θTx))?(1?y)g(θTx))xj(37)=(y?hθ(x))xj

?θ:=θ+α(y?hθ(x))xj?θ:=θ+α(y?hθ(x))xj

? 如果我們將其與LMS更新規(guī)則進(jìn)行比較，我們會發(fā)現(xiàn)它看起來差不多; 但這不是相同的算法，因?yàn)?hθ(x(i)) 現(xiàn)在被定義為 θTx(i) 的非線性函數(shù)。盡管如此，我們最終得到了相同的更新規(guī)則以獲得相當(dāng)不同的算法和學(xué)習(xí)問題。這是巧合嗎，具體原因請移步GLM Model。

（112）插敘：感知學(xué)習(xí)算法

? 我們現(xiàn)在離題談?wù)撘粋€具有一定歷史意義的算法，考慮修改邏輯回歸的方法以“強(qiáng)制”它輸出0或1或精確值。要做到這一點(diǎn)，將 g 的定義更改為閾值函數(shù)似乎很自然：
$g (z) = {10 (i f z \geq 0) (i f z < 0)$
? 同樣，令 hθ(x)=g(θTx) ，g 的定義如上式（22），同樣用更新規(guī)則：

$θ : = θ + α (y ? h θ (x)) x j$ ，這樣便得到了==感知學(xué)習(xí)算法== （perceptron learning algorithm）

? 在20世紀(jì)60年代，這種“感知機(jī)”被認(rèn)為是解釋大腦中各個神經(jīng)元如何工作的粗略模型。盡管感知器可能在美學(xué)上與我們所討論的其他算法相似，但它實(shí)際上是一種非常不同類型的算法，而不是邏輯回歸和LSR。

（2）牛頓法

? 回到邏輯回歸，另一種最大化似然函數(shù)的方法是==牛頓法== (Newton’s method)。

? 牛頓法的核心思想是找 0。假設(shè)有函數(shù) f:R?R . 我們要找到一個 θ 使得 f(θ)=0 成立，θ∈R，是一個實(shí)數(shù)。此時牛頓法的更新規(guī)則如下：

θ:=θ?f(θ)f′(θ)θ:=θ?f(θ)f′(θ)
? 這種方法有一個自然的解釋，我們可以把它看作是通過線性函數(shù)逼近函數(shù)

ff ，線性函數(shù)在當(dāng)前猜測

θ

處與

ff 相切，求解線性函數(shù)等于零的位置，并讓

θ

的下一個猜測

θθ 成為線性函數(shù)為零的地方。下面是牛頓法的圖解：

? 牛頓方法給出了一種獲得 f(θ)=0 的方法。如果我們想用它來最大化函數(shù) ? 該怎么辦呢？函數(shù) ? 的最大值對應(yīng)其一階導(dǎo)數(shù) ?′為零的點(diǎn)。因此，可以令

f(θ)=?′(θ) 。我們同樣用更新規(guī)則的方式最大化 ? ：

θ:=θ??′(θ)?′′(θ)θ:=θ??′(θ)?″(θ)
? 最后，在我們的邏輯回歸數(shù)據(jù)中，

θθ 是向量，因此我們需要將牛頓方法推廣到這些數(shù)據(jù)上。牛頓法對這種多維數(shù)據(jù)的推廣（稱為==Newton-Raphson法==）由下式給出：

θ:=θ?H?1?θ?(θ)θ:=θ?H?1?θ?(θ)
?

HH 是

n \times n

的矩陣（實(shí)際上，如果加上截距項，則大小為

(n+1)×(n+1)(n+1)×(n+1) ）。

HH called ==Hessian== , 它的項的形式如下：

H i j = ? 2 ? ( θ ) ? θ i ? θ j

? 牛頓法通常比 (batch) gradient descent更快收斂，并且需要更少的迭代次數(shù)就能達(dá)到非常接近最小值。然而，牛頓法的一次迭代可能比一次梯度下降迭代代價更昂貴，因?yàn)樗枰业揭粋€

n×nn×n 的Hessian矩陣，并求逆。但只要

nn 不是太大，整體通常要快得多。牛頓方法用于最大化邏輯回歸對數(shù)似然函數(shù)

? (θ)

時，稱為Fisher scoring 。

分類和邏輯回歸(Classification and logistic regression)
斯坦福機(jī)器學(xué)習(xí)課程Lecture 1（cs229-notes1）

總結(jié)

以上是生活随笔為你收集整理的机器学习2 分类与逻辑回归的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：为什么跨浏览器测试很重要?7款跨浏览器测
下一篇： 74位图灵奖得主背景显示：大多数没有主修