日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

逻辑回归模型(Logistic Regression, LR)基础 - 文赛平

發(fā)布時(shí)間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 逻辑回归模型(Logistic Regression, LR)基础 - 文赛平 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


邏輯回歸模型(Logistic Regression, LR)基礎(chǔ) - 文賽平

時(shí)間?2013-11-25 11:56:00 博客園精華區(qū) 原文? http://www.cnblogs.com/sparkwen/p/3441197.html 主題 邏輯斯蒂回歸 線性回歸

邏輯回歸(Logistic Regression, LR)模型其實(shí)僅在線性回歸的基礎(chǔ)上,套用了一個(gè)邏輯函數(shù),但也就由于這個(gè)邏輯函數(shù),使得邏輯回歸模型成為了機(jī)器學(xué)習(xí)領(lǐng)域一顆耀眼的明星,更是計(jì)算廣告學(xué)的核心。本文主要詳述邏輯回歸模型的基礎(chǔ),至于邏輯回歸模型的優(yōu)化、邏輯回歸與計(jì)算廣告學(xué)等,請(qǐng)關(guān)注后續(xù)文章。

1 邏輯回歸模型

??? 回歸是一種極易理解的模型,就相當(dāng)于y=f(x),表明自變量x與因變量y的關(guān)系。最常見問題有如醫(yī)生治病時(shí)的望、聞、問、切,之后判定病人是否生病或生了什么病,其中的望聞問切就是獲取自變量x,即特征數(shù)據(jù),判斷是否生病就相當(dāng)于獲取因變量y,即預(yù)測(cè)分類。

??? 最簡(jiǎn)單的回歸是線性回歸,在此借用Andrew NG的講義,有如圖1.a所示,X為數(shù)據(jù)點(diǎn)——腫瘤的大小,Y為觀測(cè)值——是否是惡性腫瘤。通過構(gòu)建線性回歸模型,如h θ (x)所示,構(gòu)建線性回歸模型后,即可以根據(jù)腫瘤大小,預(yù)測(cè)是否為惡性腫瘤h θ (x)≥.05為惡性,h θ (x)<0.5為良性。

??? 然而線性回歸的魯棒性很差,例如在圖1.b的數(shù)據(jù)集上建立回歸,因最右邊噪點(diǎn)的存在,使回歸模型在訓(xùn)練集上表現(xiàn)都很差。這主要是由于線性回歸在整個(gè)實(shí)數(shù)域內(nèi)敏感度一致,而分類范圍,需要在[0,1]。邏輯回歸就是一種減小預(yù)測(cè)范圍,將預(yù)測(cè)值限定為[0,1]間的一種回歸模型,其回歸方程與回歸曲線如圖2所示。邏輯曲線在z=0時(shí),十分敏感,在z>>0或z<<0處,都不敏感,將預(yù)測(cè)值限定為(0,1)。

圖2 邏輯方程與邏輯曲線

??? 邏輯回歸其實(shí)僅為在線性回歸的基礎(chǔ)上,套用了一個(gè)邏輯函數(shù),但也就由于這個(gè)邏輯函數(shù),邏輯回歸成為了機(jī)器學(xué)習(xí)領(lǐng)域一顆耀眼的明星,更是計(jì)算廣告學(xué)的核心。對(duì)于多元邏輯回歸,可用如下公式似合分類,其中公式(4)的變換,將在邏輯回歸模型參數(shù)估計(jì)時(shí),化簡(jiǎn)公式帶來很多益處,y={0,1}為分類結(jié)果。

??? 對(duì)于訓(xùn)練數(shù)據(jù)集,特征數(shù)據(jù)x={x 1 , x 2 , … , x m }和對(duì)應(yīng)的分類數(shù)據(jù)y={y 1 , y 2 , … , y m }。構(gòu)建邏輯回歸模型f(θ),最典型的構(gòu)建方法便是應(yīng)用極大似然估計(jì)。首先,對(duì)于單個(gè)樣本,其后驗(yàn)概率為:

??? 那么,極大似然函數(shù)為:

??? log似然是:

2 梯度下降

??? 由第1節(jié)可知,求邏輯回歸模型f(θ),等價(jià)于:

??? 采用梯度下降法:

???? 從而迭代θ至收斂即可:

3 模型評(píng)估

??? 對(duì)于LR分類模型的評(píng)估,常用AUC來評(píng)估,關(guān)于AUC的更多定義與介紹,可見參考文獻(xiàn)2,在此只介紹一種極簡(jiǎn)單的計(jì)算與理解方法。

???? 對(duì)于訓(xùn)練集的分類,訓(xùn)練方法1和訓(xùn)練方法2分類正確率都為80%,但明顯可以感覺到訓(xùn)練方法1要比訓(xùn)練方法2好。因?yàn)橛?xùn)練方法1中,5和6兩數(shù)據(jù)分類錯(cuò)誤,但這兩個(gè)數(shù)據(jù)位于分類面附近,而訓(xùn)練方法2中,將10和1兩個(gè)數(shù)據(jù)分類錯(cuò)誤,但這兩個(gè)數(shù)據(jù)均離分類面較遠(yuǎn)。

??? AUC正是衡量分類正確度的方法,將訓(xùn)練集中的label看兩類{0,1}的分類問題,分類目標(biāo)是將預(yù)測(cè)結(jié)果盡量將兩者分開。將每個(gè)0和1看成一個(gè)pair關(guān)系,團(tuán)中的訓(xùn)練集共有5*5=25個(gè)pair關(guān)系,只有將所有pair關(guān)系一至?xí)r,分類結(jié)果才是最好的,而auc為1。在訓(xùn)練方法1中,與10相關(guān)的pair關(guān)系完全正確,同樣9、8、7的pair關(guān)系也完全正確,但對(duì)于6,其pair關(guān)系(6,5)關(guān)系錯(cuò)誤,而與4、3、2、1的關(guān)系正確,故其auc為(25-1)/25=0.96;對(duì)于分類方法2,其6、7、8、9的pair關(guān)系,均有一個(gè)錯(cuò)誤,即(6,1)、(7,1)、(8,1)、(9,1),對(duì)于數(shù)據(jù)點(diǎn)10,其正任何數(shù)據(jù)點(diǎn)的pair關(guān)系,都錯(cuò)誤,即(10,1)、(10,2)、(10,3)、(10,4)、(10,5),故方法2的auc為(25-4-5)/25=0.64,因而正如直觀所見,分類方法1要優(yōu)于分類方法2。

參考文獻(xiàn):

1? Andrew NG. Logistic Regression Classification

2 http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html

總結(jié)

以上是生活随笔為你收集整理的逻辑回归模型(Logistic Regression, LR)基础 - 文赛平的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。