吴恩达机器学习笔记三之逻辑回归
本節目錄:
1.分類問題
在分類問題中,我們嘗試預測的是結果是否屬于某一個類(例如正確或錯誤)。分類問
題的例子有:判斷一封電子郵件是否是垃圾郵件;判斷一次金融交易是否是欺詐。
如果我們要用線性回歸算法來解決一個分類問題,對于分類, 𝑦 取值為 0 或者 1,但
如果你使用的是線性回歸,那么假設函數的輸出值可能遠大于 1,或者遠小于 0,即使所有
訓練樣本的標簽 𝑦 都等于 0 或 1。盡管我們知道標簽應該取值 0 或者 1,但是如果算法
得到的值遠大于 1 或者遠小于 0 的話,就會感覺很奇怪。
邏輯回歸算法是分類算法,這個算法的性質是:它的輸出值永遠在 0 到 1 之間。適用于標簽y取值離散的情況。
2.假說表示
邏輯回歸模型的假設是
其中X代表特征向量,g代表邏輯函數,它是一個常用s形的邏輯函數
公式為:
?𝜃(𝑥)的作用是,對于給定的輸入變量,根據選擇的參數計算輸出變量=1 的可能性
(estimated probablity)即?𝜃(𝑥) = 𝑃(𝑦 = 1|𝑥; 𝜃)
3 判定邊界
4 代價函數
用來擬合參數的優化目標。
線性回歸模型:
對于線性回歸模型,我們定義的代價函數是所有模型誤差的平方和。理論上來說,我們
也可以對邏輯回歸模型沿用這個定義,但是問題在于,當我們將?𝜃(𝑥) = 1 1+𝑒?𝜃𝑇𝑋
帶入到這樣
定義了的代價函數中時,我們得到的代價函數將是一個非凸函數(non-convexfunction)。
這意味著我們的代價函數有許多局部最小值,這將影響梯度下降算法尋找全局最小值。
下面就可以使用梯度下降算法求得使代價函數最小的參數了。
5 高級優化
我們有個代價函數𝐽(𝜃),而我們想要使其最小化,那么我們需要做的是編寫代碼,當輸入參
數 𝜃 時,它們會計算出兩樣東西:𝐽(𝜃) 以及𝐽 等于 0、1 直到 𝑛 時的偏導數項。
假設我們已經完成了可以實現這兩件事的代碼,那么梯度下降所做的就是反復執行這些
更新。
另一種考慮梯度下降的思路是:我們需要寫出代碼來計算𝐽(𝜃) 和這些偏導數,然后把
這些插入到梯度下降中,然后它就可以為我們最小化這個函數。
6 多類別分類
使用邏輯回歸解決多類別分類問題,即 “一對多” 的分類算法。
對于一個多類分類問題,我們的數據集或許看起來像這樣
我用 3 種不同的符號來代表 3 個類別,,問題就是給出 3 個類型的數據集,我們如何得到
一個學習算法來進行分類呢?
在我們有一個訓練集,好比上圖表示的有 3 個類別,我們用三角形表示 𝑦 = 1,方框
表示𝑦 = 2,叉叉表示 𝑦 = 3。我們下面要做的就是使用一個訓練集,將其分成 3 個二元分
類問題。
先從用三角形代表的類別 1 開始,實際上我們可以創建一個,新的"偽"訓練集,類
型 2 和類型 3 定為負類,類型 1 設定為正類,我們創建一個新的訓練集,如下圖所示的那
樣,我們要擬合出一個合適的分類器。
這里的三角形是正樣本,而圓形代表負樣本。可以這樣想,設置三角形的值為 1,圓形
的值為 0,下面我們來訓練一個標準的邏輯回歸分類器,這樣我們就得到一個正邊界。
為了能實現這樣的轉變,我們將多個類中的一個類標記為正向類(𝑦 = 1),然后將其
他所有類都標記為負向類,這個模型記作?𝜃(1)(𝑥)。接著,類似地第我們選擇另一個類標記為
正向類(𝑦 = 2),再將其它類都標記為負向類,將這個模型記作 ?𝜃(2)(𝑥),依此類推。
最后我們得到一系列的模型簡記為: ?𝜃(𝑖)(𝑥) = 𝑝(𝑦 = 𝑖|𝑥; 𝜃)其中:𝑖 = (1,2,3. . . . 𝑘)
最后,在我們需要做預測時,我們將所有的分類機都運行一遍,然后對每一個輸入變量,
都選擇最高可能性的輸出變量。
總結
以上是生活随笔為你收集整理的吴恩达机器学习笔记三之逻辑回归的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字节顺序:高位优先(big-endian
- 下一篇: 爆款入门 | 第 14 期微生物组-扩增