二、逻辑回归算法梳理
1、邏輯回歸與線性回歸的聯(lián)系與區(qū)別
- 聯(lián)系
邏輯回歸與線性回歸都屬于廣義線性回歸模型 - 區(qū)別
因變量不同,如果是連續(xù)的,就是多重線性回歸,如果是二項分布,就是logistic回歸。logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最為常用的就是二分類的logistic回歸。
線性回歸用于解決回歸問題,邏輯回歸主要用于解決分類問題
2、 邏輯回歸的原理
邏輯回歸
3、邏輯回歸損失函數(shù)推導(dǎo)及優(yōu)化
既然可以轉(zhuǎn)化成概率,那么便可以利用最大似然估計(MLE)來寫出目標(biāo)函數(shù):
L(θ)=p(y? |X;θ)=∏i=1mp(yi|xi;θ)=∏i=1m(hθ(xi))yi(1?hθ(xi))1?yi
接下來就是求解 MLE 的老套路,取對數(shù)加負(fù)號,然后代入 hθ(x),可以得到 LR 的代價函數(shù),即對數(shù)損失:
J(θ)=loss(hθ(xi),yi)=?1ml(θ)=?1m∑i=1m(yiloghθ(xi)+(1?yi)log(1?hθ(xi)))
將 sigmiod 函數(shù)代入 hθ(xi),并使用 ln 代替 log,上述公式還可以繼續(xù)化簡為:
J(θ)=–1m∑i=1m[yilnhθ(xi)+(1?yi)ln(1?hθ(xi)]=?1m∑i=1m[yiln11+e?θTxi+(1?yi)lne?θTxi1+e?θTxi]=?1m∑i=1m[ln11+eθTxi+yiln1e?θTxi]=1m∑i=1m[?yiθTxi+ln(1+eθTxi)]
4、 正則化與模型評估指標(biāo)
正則化
正則化是一種回歸的形式,它將系數(shù)估計(coefficient estimate)朝零的方向進(jìn)行約束、調(diào)整或縮小。也就是說,正則化可以在學(xué)習(xí)過程中降低模型復(fù)雜度和不穩(wěn)定程度,從而避免過擬合的危險。
L1范數(shù):L1范數(shù)在正則化的過程中會趨向于產(chǎn)生少量的特征,而其他的特征都是0(L1會使得參數(shù)矩陣變得稀疏)。因此L1不僅可以起到正則化的作用,還可以起到特征選擇的作用。
L2范數(shù):L2范數(shù)是通過使權(quán)重衰減,進(jìn)而使得特征對于總體的影響減小而起到防止過擬合的作用的。L2的優(yōu)點在于求解穩(wěn)定、快速。
模型評估指標(biāo)
精確率,precision = TP / (TP + FP) 即正確預(yù)測的正反例數(shù) /總數(shù)
準(zhǔn)確率,accuracy = (TP + TN) / (TP + FP + TN + FN) 精確率容易和準(zhǔn)確率不能混為一談,為預(yù)測出是正的里面有多少真正是正的。可理解為查準(zhǔn)率。
召回率,recall = TP / (TP + FN) 表現(xiàn)為在實際正樣本中,分類器能預(yù)測出多少。
F1 Score = P*R/2(P+R),其中P和R分別為 precision 和 recall ,在precision與recall都要求高的情況下,可以用F1 Score來衡量。
ROC曲線 邏輯回歸里面,對于正負(fù)例的界定,通常會設(shè)一個閾值,大于閾值的為正類,小于閾值為負(fù)類。如果我們減小這個閥值,更多的樣本會被識別為正類,提高正類的識別率,但同時也會使得更多的負(fù)類被錯誤識別為正類。為了直觀表示這一現(xiàn)象,引入ROC。在圖中,橫坐標(biāo)為False Positive Rate(FPR假正率),縱坐標(biāo)為True Positive Rate(TPR真正率)。
AUC(Area Under Curve)被定義為ROC曲線下的面積(ROC的積分),通常大于0.5小于1。AUC值(面積)越大的分類器,性能越好。
5、邏輯回歸的優(yōu)缺點
優(yōu)點
1形式簡單,模型的可解釋性非常好。從特征的權(quán)重可以看到不同的特征對最后結(jié)果的影響,某個特征的權(quán)重值比較高,那么這個特征最后對結(jié)果的影響會比較大。
2模型效果不錯,如果特征工程做的好,效果不會太差。
3訓(xùn)練速度較快。分類的時候,計算量僅僅只和特征的數(shù)目相關(guān)。
缺點
1準(zhǔn)確率并不是很高。因為形式非常的簡單(非常類似線性模型),很難去擬合數(shù)據(jù)的真實分布。
2很難處理數(shù)據(jù)不平衡的問題。舉個例子:如果我們對于一個正負(fù)樣本非常不平衡的問題比如正負(fù)樣本比 10000:1.我們把所有樣本都預(yù)測為正也能使損失函數(shù)的值比較小。但是作為一個分類器,它對正負(fù)樣本的區(qū)分能力不會很好。
3處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下,只能處理線性可分的數(shù)據(jù)
6、樣本不均衡問題解決辦法
1)增加少樣本數(shù)據(jù)
機(jī)器學(xué)習(xí)是使用現(xiàn)有的數(shù)據(jù)對整個數(shù)據(jù)的分布進(jìn)行估計,因此更多的數(shù)據(jù)往往能夠得到更多的分布信息,以及更好分布估計。即使再增加小類樣本數(shù)據(jù)時,又增加了大類樣本數(shù)據(jù)。
2)重采樣
對小類的數(shù)據(jù)樣本進(jìn)行采樣來增加小類的數(shù)據(jù)樣本個數(shù),即過采樣(over-sampling ,采樣的個數(shù)大于該類樣本的個數(shù))。即添加部分樣本的副本。
對大類的數(shù)據(jù)樣本進(jìn)行采樣來減少該類數(shù)據(jù)樣本的個數(shù),即欠采樣(under-sampling,采樣的次數(shù)少于該類樣本的個素)。即刪除部分樣本。
3)采用不同分類算法
應(yīng)該使用不同的算法對其進(jìn)行比較,因為不同的算法使用于不同的任務(wù)與數(shù)據(jù)。決策樹往往在類別不均衡數(shù)據(jù)上表現(xiàn)不錯。它使用基于類變量的劃分規(guī)則去創(chuàng)建分類樹,因此可以強(qiáng)制地將不同類別的樣本分開。
7. sklearn參數(shù)
LogisticRegressionttps
轉(zhuǎn)載于:https://www.cnblogs.com/robindong/p/11329118.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的二、逻辑回归算法梳理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于UDP协议的套接字+socketse
- 下一篇: 笔试算法复习——数组去重