年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀
Logistics回歸
?logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動診斷,經(jīng)濟預(yù)測等領(lǐng)域。例如,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預(yù)測疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權(quán)值可以根據(jù)危險因素預(yù)測一個人患癌癥的可能性。
概念
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數(shù)L將w‘x+b對應(yīng)一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項式函數(shù)就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
logistics回歸的原理是:如果直接將線性回歸的模型扣到Logistic回歸中,會造成方程二邊取值區(qū)間不同和普遍的非直線關(guān)系。因為Logistic中因變量為二分類變量,某個概率作為方程的因變量估計值取值范圍為0-1,但是,方程右邊取值范圍是無窮大或者無窮小。所以,才引入Logistic回歸。
?logistic回歸實質(zhì):發(fā)生概率除以沒有發(fā)生概率再取對數(shù)。就是這個不太繁瑣的變換改變了取值區(qū)間的矛盾和因變量自變量間的曲線關(guān)系。究其原因,是發(fā)生和未發(fā)生的概率成為了比值 ,這個比值就是一個緩沖,將取值范圍擴大,再進行對數(shù)變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關(guān)系,這是根據(jù)大量實踐而總結(jié)。所以,Logistic回歸從根本上解決因變量要不是連續(xù)變量怎么辦的問題。還有,Logistic應(yīng)用廣泛的原因是許多現(xiàn)實問題跟它的模型吻合。例如一件事情是否發(fā)生跟其他數(shù)值型自變量的關(guān)系。?注意:如果自變量為字符型,就需要進行重新編碼。一般如果自變量有三個水平就非常難對付,所以,如果自變量有更多水平就太復(fù)雜。這里只討論自變量只有三個水平。非常麻煩,需要再設(shè)二個新變量。共有三個變量,第一個變量編碼1為高水平,其他水平為0。第二個變量編碼1為中間水平,0為其他水平。第三個變量,所有水平都為0。實在是麻煩,而且不容易理解。最好不要這樣做,也就是,最好自變量都為連續(xù)變量。
適用條件
1、因變量為二分類的分類變量或某事件的發(fā)生率,并 且是數(shù)值型變量。但是需要注意,重復(fù)計數(shù)現(xiàn)象指標(biāo)不適用于Logistic回歸。
2、殘差和因變量都要服從二項分布。二項分布對應(yīng)的是分類變量,所以不是正態(tài)分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變量和Logistic概率是線性關(guān)系
4、各觀測對象間相互獨立
主要用途
? ? ? 1、編輯
用于尋找危險因素
? ? ? 2、預(yù)測
如果已經(jīng)建立了logistic回歸模型,則可以根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大。
? ? ? 3、判別
實際上跟預(yù)測有些類似,也是根據(jù)logistic模型,判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某病。
這是logistic回歸最常用的三個用途,實際中的logistic回歸用途是極為廣泛的,logistic回歸幾乎已經(jīng)成了流行病學(xué)和醫(yī)學(xué)中最常用的分析方法,因為它與多重線性回歸相比有很多的優(yōu)勢,以后會對該方法進行詳細的闡述。實際上有很多其他分類方法,只不過Logistic回歸是最成功也是應(yīng)用最廣的。
分析案例
關(guān)于富士康跳樓曲線的Logistic回歸分析。
首先找出所有富士康員工自殺的日期:
列出如下表格:(以07年6月18號,第一例自殺案例為原點,至今(10年5月25日)1072天)
在MATLAB中容易做出散點圖,可見這是一個指數(shù)增長的曲線。
其增長曲線與對數(shù)增長很接近。對其做指數(shù)函數(shù)擬合:
General model Exp2:??
f(x) = a*exp(b*x) + c*exp(d*x)?
Coefficients (with 95% confidence bounds):
a = 7.569e-007 (-6.561e-006, 8.075e-006)
b = 0.01529 (0.006473, 0.0241)
c = 1.782 (0.5788, 2.984)
d = 0.001075 (2.37e-005, 0.002125)
Goodness of fit:
SSE: 8.846
R-square: 0.9684
Adjusted R-square: 0.9598
RMSE: 0.8968
可見相關(guān)度0.96也是非常高的。
然而和所有疾病一樣,一旦其事件引起了人們的關(guān)注,則各方的反饋作用,將阻礙其繼續(xù)上升。
因此,和很多流行病分析一樣,該曲線很有可能呈S型。對于該曲線的分析,使用Logistic回歸。
首先假設(shè)Logis(B,x)=F(x),之中B為參數(shù)數(shù)組,則由經(jīng)驗和可能的微分方程關(guān)系,回歸曲線應(yīng)該為:S(x)=m*Logis(B,x+t0/(n+Logis(B,x+t))格式。由于當(dāng)Logis(B,x)較小時S(x)=Logis(B,x),則可以認為f(x)的參數(shù)可以直接引入S(x)作為一種近似,而對于m,n的確定,以1為間隔,畫出m*n=40*20的所有曲線,選出其中最吻合的的一條(m=22 n=20 t=50):由此可以見,富士康的跳樓人數(shù)最終會穩(wěn)定在在22人左右,仍然不會超過全國平均跳樓率。
掃碼關(guān)注我們
|打造品牌學(xué)術(shù)競賽|
|調(diào)研社會熱點問題|
?文稿|胡嘉儀
排版|胡嘉儀
總結(jié)
以上是生活随笔為你收集整理的年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新手怎么磨90度三刃倒角刀?
- 下一篇: 配置ssd为缓存_撕下贴牌的画皮!快速确