Logistic Regression逻辑回归
參考自:
http://blog.sina.com.cn/s/blog_74cf26810100ypzf.html
http://blog.sina.com.cn/s/blog_64ecfc2f0101ranp.html
----------------------------------------------------------------------
Logistic regression (邏輯回歸)是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性。比如某用戶購買某商品的可能性,某病人患有某種疾病的可能性,以及某廣告被用戶點(diǎn)擊的可能性等。(注意這里是:“可能性”,而非數(shù)學(xué)上的“概率”,logisitc回歸的結(jié)果并非數(shù)學(xué)定義中的概率值,不可以直接當(dāng)做概率值來用。該結(jié)果往往用于和其他特征值加權(quán)求和,而非直接相乘)
1)回歸
?Logistic regression是線性回歸的一種。
?回歸其實(shí)就是對已知公式的未知參數(shù)進(jìn)行估計(jì)。大家可以簡單的理解為,在給定訓(xùn)練樣本點(diǎn)和已知的公式后,對于一個或多個未知參數(shù),機(jī)器會自動枚舉參數(shù)的所有可能取值(對于多個參數(shù)要枚舉它們的不同組合),直到找到那個最符合樣本點(diǎn)分布的參數(shù)(或參數(shù)組合)。(當(dāng)然,實(shí)際運(yùn)算有一些優(yōu)化算法,肯定不會去枚舉的)
注意,回歸的前提是公式已知,否則回歸無法進(jìn)行。而現(xiàn)實(shí)生活中哪里有已知的公式啊(G=m*g 也是牛頓被蘋果砸了腦袋之后碰巧想出來的不是?哈哈),因此回歸中的公式基本都是數(shù)據(jù)分析人員通過看大量數(shù)據(jù)后猜測的(其實(shí)大多數(shù)是拍腦袋想出來的,嗯...)。根據(jù)這些公式的不同,回歸分為線性回歸和非線性回歸。線性回歸中公式都是“一次”的(一元一次方程,二元一次方程...),而非線性則可以有各種形式(N元N次方程,log方程 等等)。具體的例子在線性回歸中介紹吧。
2)線性回歸
?直接來一個最簡單的一元變量的例子:假設(shè)要找一個y和x之間的規(guī)律,其中x是鞋子價(jià)錢,y是鞋子的銷售量。(為什么要找這個規(guī)律呢?這樣的話可以幫助定價(jià)來賺更多的錢嘛,小學(xué)的應(yīng)用題經(jīng)常做的呵呵)。已知一些往年的銷售數(shù)據(jù)(x0,y0), (x1, y1), ... (xn, yn)做樣本集,??并假設(shè)它們滿足線性關(guān)系:y = a*x + b (其中a,b的具體取值還不確定),線性回歸即根據(jù)往年數(shù)據(jù)找出最佳的a, b取值,使?y = a * x + b 在所有樣本集上誤差最小。?
也許你會覺得---暈!這么簡單!?這需要哪門子的回歸呀!我自己在草紙上畫個xy坐標(biāo)系,點(diǎn)幾個點(diǎn)就能畫出來!(好吧,我承認(rèn)我們初中時都被這樣的畫圖題折磨過)。事實(shí)上一元變量的確很直觀,但如果是多元就難以直觀的看出來了。比如說除了鞋子的價(jià)格外,鞋子的質(zhì)量,廣告的投入,店鋪所在街區(qū)的人流量都會影響銷量,我們想得到這樣的公式:sell = a*x + b*y + c*z + d*zz + e。這個時候畫圖就畫不出來了,規(guī)律也十分難找,那么交給線性回歸去做就好。(線性回歸具體是怎么做的請參考相應(yīng)文獻(xiàn),都是一些數(shù)學(xué)公式,對程序員來說,我們就把它當(dāng)成一條程序命令就好)。這就是線性回歸算法的價(jià)值。
?需要注意的是,這里線性回歸能過獲得好效果的前提是y = a*x + b 至少從總體上是有道理的(因?yàn)槲覀冋J(rèn)為鞋子越貴,賣的數(shù)量越少,越便宜賣的越多。另外鞋子質(zhì)量、廣告投入、客流量等都有類似規(guī)律);但并不是所有類型的變量都適合用線性回歸,比如說x不是鞋子的價(jià)格,而是鞋子的尺碼),那么無論回歸出什么樣的(a,b),錯誤率都會極高(因?yàn)槭聦?shí)上尺碼太大或尺碼太小都會減少銷量)。總之:如果我們的公式假設(shè)是錯的,任何回歸都得不到好結(jié)果。
3)Logistic方程
上面我們的sell是一個具體的實(shí)數(shù)值,然而很多情況下,我們需要回歸產(chǎn)生一個類似概率值的0~1之間的數(shù)值(比如某一雙鞋子今天能否賣出去?或者某一個廣告能否被用戶點(diǎn)擊??我們希望得到這個數(shù)值來幫助決策鞋子上不上架,以及廣告展不展示)。這個數(shù)值必須是0~1之間,但sell顯然不滿足這個區(qū)間要求。于是引入了Logistic方程,來做歸一化。這里再次說明,該數(shù)值并不是數(shù)學(xué)中定義的概率值。那么既然得到的并不是概率值,為什么我們還要費(fèi)這個勁把數(shù)值歸一化為0~1之間呢?歸一化的好處在于數(shù)值具備可比性和收斂的邊界,這樣當(dāng)你在其上繼續(xù)運(yùn)算時(比如你不僅僅是關(guān)心鞋子的銷量,而是要對鞋子賣出的可能、當(dāng)?shù)刂伟睬闆r、當(dāng)?shù)剡\(yùn)輸成本 等多個要素之間加權(quán)求和,用綜合的加和結(jié)果決策是否在此地開鞋店時),歸一化能夠保證此次得到的結(jié)果不會因?yàn)檫吔?太大/太小 導(dǎo)致 覆蓋其他feature 或 被其他feature覆蓋。(舉個極端的例子,如果鞋子銷量最低為100,但最好時能賣無限多個,而當(dāng)?shù)刂伟矤顩r是用0~1之間的數(shù)值表述的,如果兩者直接求和治安狀況就完全被忽略了)這是用logistic回歸而非直接線性回歸的主要原因。到了這里,也許你已經(jīng)開始意識到,沒錯,Logistic Regression 就是一個被logistic方程歸一化后的線性回歸,僅此而已。
?
三、Logistic Regression的適用性
1) 可用于概率預(yù)測,也可用于分類。
?并不是所有的機(jī)器學(xué)習(xí)方法都可以做可能性概率預(yù)測(比如SVM就不行,它只能得到1或者-1)。可能性預(yù)測的好處是結(jié)果又可比性:比如我們得到不同廣告被點(diǎn)擊的可能性后,就可以展現(xiàn)點(diǎn)擊可能性最大的N個。這樣以來,哪怕得到的可能性都很高,或者可能性都很低,我們都能取最優(yōu)的topN。當(dāng)用于分類問題時,僅需要設(shè)定一個閾值即可,可能性高于閾值是一類,低于閾值是另一類。
2) 僅能用于線性問題
?只有在feature和target是線性關(guān)系時,才能用Logistic Regression(不像SVM那樣可以應(yīng)對非線性問題)。這有兩點(diǎn)指導(dǎo)意義,一方面當(dāng)預(yù)先知道模型非線性時,果斷不使用Logistic Regression; 另一方面,在使用Logistic Regression時注意選擇和target呈線性關(guān)系的feature。
3) 各feature之間不需要滿足條件獨(dú)立假設(shè),但各個feature的貢獻(xiàn)是獨(dú)立計(jì)算的。
?邏輯回歸不像樸素貝葉斯一樣需要滿足條件獨(dú)立假設(shè)(因?yàn)樗鼪]有求后驗(yàn)概率)。但每個feature的貢獻(xiàn)是獨(dú)立計(jì)算的,即LR是不會自動幫你combine 不同的features產(chǎn)生新feature的 (時刻不能抱有這種幻想,那是決策樹,LSA, pLSA, LDA或者你自己要干的事情)。舉個例子,如果你需要TF*IDF這樣的feature,就必須明確的給出來,若僅僅分別給出兩維 TF 和 IDF 是不夠的,那樣只會得到類似 a*TF + b*IDF 的結(jié)果,而不會有 c*TF*IDF 的效果。
------------------------------------------------------
設(shè)我們某個測試數(shù)據(jù)為X(x0,x1,x2···xn),Θ(θ0,θ1,θ2,···θn)為我們的學(xué)習(xí)算法所學(xué)到的參數(shù),那么
寫成向量的話就變成
Z就是我們得到的結(jié)果,但是logistic regression只能處理二值數(shù)據(jù),這個Z是一個連續(xù)值,它的范圍可以很廣。為了把這個Z化為二值變量,引人Sigmoid函數(shù)
這個函數(shù)的圖形如下所示,將算得的Z代入上式即可得到一個接近1或者0的值,我們把g(Z)函數(shù)得出的值>=0.5的判斷為1。
所以最終構(gòu)造出的預(yù)測函數(shù)為
?
轉(zhuǎn)載于:https://www.cnblogs.com/beihaidao/p/5938089.html
總結(jié)
以上是生活随笔為你收集整理的Logistic Regression逻辑回归的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字符处理函数
- 下一篇: 抽奖算法-指定概率的随机