當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

二、逻辑回归算法梳理

發布時間：2024/1/17 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了二、逻辑回归算法梳理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、邏輯回歸與線性回歸的聯系與區別

聯系
邏輯回歸與線性回歸都屬于廣義線性回歸模型
區別
因變量不同，如果是連續的，就是多重線性回歸，如果是二項分布，就是logistic回歸。logistic回歸的因變量可以是二分類的，也可以是多分類的，但是二分類的更為常用，也更加容易解釋。所以實際中最為常用的就是二分類的logistic回歸。
線性回歸用于解決回歸問題，邏輯回歸主要用于解決分類問題

2、邏輯回歸的原理

邏輯回歸

3、邏輯回歸損失函數推導及優化

既然可以轉化成概率，那么便可以利用最大似然估計（MLE）來寫出目標函數：

L(θ)=p(y? |X;θ)=∏i=1mp(yi|xi;θ)=∏i=1m(hθ(xi))yi(1?hθ(xi))1?yi
接下來就是求解 MLE 的老套路，取對數加負號，然后代入 hθ(x)，可以得到 LR 的代價函數，即對數損失：

J(θ)=loss(hθ(xi),yi)=?1ml(θ)=?1m∑i=1m(yiloghθ(xi)+(1?yi)log(1?hθ(xi)))
將 sigmiod 函數代入 hθ(xi)，并使用 ln 代替 log，上述公式還可以繼續化簡為：

J(θ)=–1m∑i=1m[yilnhθ(xi)+(1?yi)ln(1?hθ(xi)]=?1m∑i=1m[yiln11+e?θTxi+(1?yi)lne?θTxi1+e?θTxi]=?1m∑i=1m[ln11+eθTxi+yiln1e?θTxi]=1m∑i=1m[?yiθTxi+ln(1+eθTxi)]

4、正則化與模型評估指標

正則化
正則化是一種回歸的形式，它將系數估計（coefficient estimate）朝零的方向進行約束、調整或縮小。也就是說，正則化可以在學習過程中降低模型復雜度和不穩定程度，從而避免過擬合的危險。
L1范數：L1范數在正則化的過程中會趨向于產生少量的特征，而其他的特征都是0（L1會使得參數矩陣變得稀疏）。因此L1不僅可以起到正則化的作用，還可以起到特征選擇的作用。
L2范數：L2范數是通過使權重衰減，進而使得特征對于總體的影響減小而起到防止過擬合的作用的。L2的優點在于求解穩定、快速。
模型評估指標
精確率，precision = TP / (TP + FP) 即正確預測的正反例數 /總數
準確率，accuracy = (TP + TN) / (TP + FP + TN + FN) 精確率容易和準確率不能混為一談，為預測出是正的里面有多少真正是正的。可理解為查準率。
召回率，recall = TP / (TP + FN) 表現為在實際正樣本中，分類器能預測出多少。
F1 Score = P*R/2(P+R)，其中P和R分別為 precision 和 recall ，在precision與recall都要求高的情況下，可以用F1 Score來衡量。
ROC曲線邏輯回歸里面，對于正負例的界定，通常會設一個閾值，大于閾值的為正類，小于閾值為負類。如果我們減小這個閥值，更多的樣本會被識別為正類，提高正類的識別率，但同時也會使得更多的負類被錯誤識別為正類。為了直觀表示這一現象，引入ROC。在圖中，橫坐標為False Positive Rate(FPR假正率)，縱坐標為True Positive Rate(TPR真正率)。
AUC（Area Under Curve）被定義為ROC曲線下的面積(ROC的積分)，通常大于0.5小于1。AUC值(面積)越大的分類器，性能越好。

5、邏輯回歸的優缺點

優點
1形式簡單，模型的可解釋性非常好。從特征的權重可以看到不同的特征對最后結果的影響，某個特征的權重值比較高，那么這個特征最后對結果的影響會比較大。
2模型效果不錯，如果特征工程做的好，效果不會太差。
3訓練速度較快。分類的時候，計算量僅僅只和特征的數目相關。
缺點
1準確率并不是很高。因為形式非常的簡單(非常類似線性模型)，很難去擬合數據的真實分布。
2很難處理數據不平衡的問題。舉個例子：如果我們對于一個正負樣本非常不平衡的問題比如正負樣本比 10000:1.我們把所有樣本都預測為正也能使損失函數的值比較小。但是作為一個分類器，它對正負樣本的區分能力不會很好。
3處理非線性數據較麻煩。邏輯回歸在不引入其他方法的情況下，只能處理線性可分的數據

6、樣本不均衡問題解決辦法

1)增加少樣本數據
機器學習是使用現有的數據對整個數據的分布進行估計，因此更多的數據往往能夠得到更多的分布信息，以及更好分布估計。即使再增加小類樣本數據時，又增加了大類樣本數據。
2)重采樣
對小類的數據樣本進行采樣來增加小類的數據樣本個數，即過采樣（over-sampling ，采樣的個數大于該類樣本的個數）。即添加部分樣本的副本。
對大類的數據樣本進行采樣來減少該類數據樣本的個數，即欠采樣（under-sampling，采樣的次數少于該類樣本的個素）。即刪除部分樣本。
3）采用不同分類算法
應該使用不同的算法對其進行比較，因為不同的算法使用于不同的任務與數據。決策樹往往在類別不均衡數據上表現不錯。它使用基于類變量的劃分規則去創建分類樹，因此可以強制地將不同類別的樣本分開。

7. sklearn參數

LogisticRegressionttps

轉載于:https://www.cnblogs.com/robindong/p/11329118.html

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的二、逻辑回归算法梳理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于UDP协议的套接字+socketse
下一篇：笔试算法复习——数组去重