日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀

發(fā)布時間:2024/10/8 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Logistics回歸

?logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動診斷,經(jīng)濟預(yù)測等領(lǐng)域。例如,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預(yù)測疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權(quán)值可以根據(jù)危險因素預(yù)測一個人患癌癥的可能性。

概念

logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數(shù)L將w‘x+b對應(yīng)一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項式函數(shù)就是多項式回歸。

logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。

logistics回歸的原理是:如果直接將線性回歸的模型扣到Logistic回歸中,會造成方程二邊取值區(qū)間不同和普遍的非直線關(guān)系。因為Logistic中因變量為二分類變量,某個概率作為方程的因變量估計值取值范圍為0-1,但是,方程右邊取值范圍是無窮大或者無窮小。所以,才引入Logistic回歸。

?logistic回歸實質(zhì):發(fā)生概率除以沒有發(fā)生概率再取對數(shù)。就是這個不太繁瑣的變換改變了取值區(qū)間的矛盾和因變量自變量間的曲線關(guān)系。究其原因,是發(fā)生和未發(fā)生的概率成為了比值 ,這個比值就是一個緩沖,將取值范圍擴大,再進行對數(shù)變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關(guān)系,這是根據(jù)大量實踐而總結(jié)。所以,Logistic回歸從根本上解決因變量要不是連續(xù)變量怎么辦的問題。還有,Logistic應(yīng)用廣泛的原因是許多現(xiàn)實問題跟它的模型吻合。例如一件事情是否發(fā)生跟其他數(shù)值型自變量的關(guān)系。?注意:如果自變量為字符型,就需要進行重新編碼。一般如果自變量有三個水平就非常難對付,所以,如果自變量有更多水平就太復(fù)雜。這里只討論自變量只有三個水平。非常麻煩,需要再設(shè)二個新變量。共有三個變量,第一個變量編碼1為高水平,其他水平為0。第二個變量編碼1為中間水平,0為其他水平。第三個變量,所有水平都為0。實在是麻煩,而且不容易理解。最好不要這樣做,也就是,最好自變量都為連續(xù)變量。

適用條件

1、因變量為二分類的分類變量或某事件的發(fā)生率,并 且是數(shù)值型變量。但是需要注意,重復(fù)計數(shù)現(xiàn)象指標(biāo)不適用于Logistic回歸。

2、殘差和因變量都要服從二項分布。二項分布對應(yīng)的是分類變量,所以不是正態(tài)分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。

3、自變量和Logistic概率是線性關(guān)系

4、各觀測對象間相互獨立

主要用途

? ? ? 1、編輯

用于尋找危險因素

? ? ? 2、預(yù)測

如果已經(jīng)建立了logistic回歸模型,則可以根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大。

? ? ? 3、判別

實際上跟預(yù)測有些類似,也是根據(jù)logistic模型,判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某病。

這是logistic回歸最常用的三個用途,實際中的logistic回歸用途是極為廣泛的,logistic回歸幾乎已經(jīng)成了流行病學(xué)和醫(yī)學(xué)中最常用的分析方法,因為它與多重線性回歸相比有很多的優(yōu)勢,以后會對該方法進行詳細的闡述。實際上有很多其他分類方法,只不過Logistic回歸是最成功也是應(yīng)用最廣的。

分析案例

關(guān)于富士康跳樓曲線的Logistic回歸分析。

首先找出所有富士康員工自殺的日期:

列出如下表格:(以07年6月18號,第一例自殺案例為原點,至今(10年5月25日)1072天)

在MATLAB中容易做出散點圖,可見這是一個指數(shù)增長的曲線。

其增長曲線與對數(shù)增長很接近。對其做指數(shù)函數(shù)擬合:

General model Exp2:??

f(x) = a*exp(b*x) + c*exp(d*x)?

Coefficients (with 95% confidence bounds):

a = 7.569e-007 (-6.561e-006, 8.075e-006)

b = 0.01529 (0.006473, 0.0241)

c = 1.782 (0.5788, 2.984)

d = 0.001075 (2.37e-005, 0.002125)

Goodness of fit:

SSE: 8.846

R-square: 0.9684

Adjusted R-square: 0.9598

RMSE: 0.8968

可見相關(guān)度0.96也是非常高的。

然而和所有疾病一樣,一旦其事件引起了人們的關(guān)注,則各方的反饋作用,將阻礙其繼續(xù)上升。

因此,和很多流行病分析一樣,該曲線很有可能呈S型。對于該曲線的分析,使用Logistic回歸。

首先假設(shè)Logis(B,x)=F(x),之中B為參數(shù)數(shù)組,則由經(jīng)驗和可能的微分方程關(guān)系,回歸曲線應(yīng)該為:S(x)=m*Logis(B,x+t0/(n+Logis(B,x+t))格式。由于當(dāng)Logis(B,x)較小時S(x)=Logis(B,x),則可以認為f(x)的參數(shù)可以直接引入S(x)作為一種近似,而對于m,n的確定,以1為間隔,畫出m*n=40*20的所有曲線,選出其中最吻合的的一條(m=22 n=20 t=50):由此可以見,富士康的跳樓人數(shù)最終會穩(wěn)定在在22人左右,仍然不會超過全國平均跳樓率。

掃碼關(guān)注我們

|打造品牌學(xué)術(shù)競賽|

|調(diào)研社會熱點問題|

?文稿|胡嘉儀

排版|胡嘉儀

總結(jié)

以上是生活随笔為你收集整理的年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。