小白学数据分析-----回归分析在游戏人气分析的应用探索
昨天簡(jiǎn)單說(shuō)了一下相關(guān)分析在充值購(gòu)買(mǎi)失衡方面的應(yīng)用,今天就接著昨天的話(huà)題,說(shuō)一下回歸分析(Regression? Analysis),回歸分析是研究一個(gè)變量(因變量)和另一個(gè)變量(自變量)關(guān)系的統(tǒng)計(jì)方法,用最小二乘方法擬合因變量和自變量的回歸模型,把一種不確定的關(guān)系的若干變量轉(zhuǎn)化為有確定關(guān)系的方程模型近似分析,并且通過(guò)自變量的變化來(lái)預(yù)測(cè)因變來(lái)預(yù)測(cè)因變量的變化趨勢(shì),在回歸分析中兩個(gè)變量的地位是不平等的,考察某一個(gè)變量的變化是依存于其他變量的變化程度,就是存在因果關(guān)系。
今天將利用回歸分析對(duì)游戲數(shù)據(jù)分析的某些指標(biāo)進(jìn)行分析探討,有關(guān)于回歸分析的一些理論這里不再講解,百度即可。今天針對(duì)DAU、PCU、ACU、新登等指標(biāo)進(jìn)行回歸分析。一般而言我們可以使用Excel就能做一元回歸分析,Excel做回歸分析有兩種方式:散點(diǎn)圖和回歸分析工具。散點(diǎn)圖通過(guò)添加趨勢(shì)線(xiàn)可以直觀的顯示自變量和因變量的關(guān)系,如果不存在明顯的線(xiàn)性或者曲線(xiàn)關(guān)系,就放棄建立回歸模型,趨勢(shì)線(xiàn)能夠輸出方程和擬合有度(R-square,該值越接近1,方程擬合越好)。第二種方法采用回歸分析工具,能夠更加詳細(xì)的輸出回歸分析指標(biāo)相關(guān)信息,便于更加仔細(xì)的進(jìn)行分析和預(yù)測(cè)。
回歸分析分為線(xiàn)性回歸分析和非線(xiàn)性回歸分析,首先來(lái)看一下線(xiàn)性回歸分析。
如果我們使用線(xiàn)性回歸分析其實(shí)有些前提要考慮:
1)? 自變量與因變量的關(guān)系,是否是呈直線(xiàn),是否是一個(gè)變量依存于另個(gè)變量的變化程度,如剛才所言,變量之間的地位是不平等的。
2)? 因變量是否符合正態(tài)分布。
3)? 因變量數(shù)值之間是否獨(dú)立。
4)? 方差是否齊性。
一般來(lái)說(shuō),按照回歸分析工具得出的結(jié)果來(lái)看,應(yīng)著重看看殘差(residual)是否是正態(tài)、獨(dú)立以及方差齊性,殘差就是因變量的實(shí)際值與估計(jì)值的差值。其實(shí)實(shí)際應(yīng)用中,這些理論的條框我們有時(shí)候搞不懂,那么我們可以通過(guò)其他辦法來(lái)看,這就是通過(guò)散點(diǎn)圖就能把以上條框搞定。
是否呈現(xiàn)直線(xiàn)關(guān)系,通過(guò)散點(diǎn)圖就能看出來(lái),如下圖所示,大致呈現(xiàn)直線(xiàn)關(guān)系。
對(duì)于正態(tài)分布可以考察殘差的正態(tài)概率圖,如果正態(tài)概率圖呈現(xiàn)一條直線(xiàn)表示符合正態(tài)分布,當(dāng)然了也可以通過(guò)正態(tài)性檢驗(yàn)方法來(lái)檢驗(yàn)一下是否符合正態(tài)分布。
是否方差齊,可以用殘差的分布來(lái)看,即以因變量的預(yù)測(cè)值為x軸,以殘差為y軸作圖,如果殘差無(wú)明顯的分布,表明方差齊性。如果有一定的趨勢(shì),可能存在方差不齊的情況,如下圖隨著x軸的增加殘差的范圍逐漸增大,明顯的方差不齊的情形。
對(duì)于是否獨(dú)立,也可以通過(guò)圖形來(lái)看, 隨著時(shí)間的變化,因變量應(yīng)該沒(méi)有任何趨勢(shì),否則可能表明因變量之間有一定的相關(guān)性。還可通過(guò)Durbin-Watson法檢驗(yàn)是否獨(dú)立。
今天我們將探討DAU與PCU、PCU與ACU、DAU與首登三組的回歸分析。
首先來(lái)看DAU與PCU的回歸分析。我們選取一個(gè)月的數(shù)據(jù),作為分析數(shù)據(jù),首先我們來(lái)繪制散點(diǎn)圖(這里不具體講解散點(diǎn)圖繪制方法)
DAU與PCU
我們繪制散點(diǎn)圖,并選擇線(xiàn)性趨勢(shì)線(xiàn),得到如下的散點(diǎn)圖:
之后我們通過(guò)回歸分析工具進(jìn)行回歸分析結(jié)果的匯總來(lái)具體解析一下,操作如下:
點(diǎn)擊數(shù)據(jù)|數(shù)據(jù)分析,如下所示:
找到回歸分析
之后確定,并要把進(jìn)行分析的數(shù)據(jù)引用單元格選好,殘差和正態(tài)分布相關(guān)選項(xiàng)全部勾選,如下所示。
最后會(huì)在新的工作表組生成結(jié)果,形式如下所示:
表格術(shù)語(yǔ)解釋一下:
df=degree of freedom 自由度
SS??? Stdev square 方差
MS?? Mean square? 均方差
F聯(lián)合檢驗(yàn)F值
coefficient回歸系數(shù)
standard error標(biāo)準(zhǔn)差
T-stat T檢驗(yàn)值=回歸系數(shù)/標(biāo)準(zhǔn)差
P-value P值,T檢驗(yàn)值查表對(duì)應(yīng)的P概率值
Lower 95%和upper 95%置信度為95%的下限和上限區(qū)間
其實(shí)對(duì)于建立的回歸模型,我們還要進(jìn)行方程的統(tǒng)計(jì)檢驗(yàn),檢驗(yàn)的原假設(shè)回歸系數(shù)=0,如果拒絕原假設(shè)(p小于置信系數(shù)),則回歸系數(shù)不為0,回歸系數(shù)或者回歸方程顯著。
回歸工具為我們提供了三張圖,分別是殘差圖、線(xiàn)性擬合圖和正態(tài)概率圖。
如下圖為通過(guò)回歸分析工具得出的回歸分析匯總結(jié)果:
可以看到R-square為0.68,也就說(shuō)68%的數(shù)據(jù)符合這個(gè)方程,擬合方程的觀測(cè)量為31個(gè),計(jì)算下來(lái)就是有21個(gè)數(shù)據(jù)項(xiàng)是符合該方程的,F統(tǒng)計(jì)量在原假設(shè)成立前提下概率為2.55944e-06遠(yuǎn)遠(yuǎn)小于顯著水平0.05,所以方程顯著。但是除了做回歸方程和回歸系數(shù)的顯著性檢驗(yàn)以外,還需要對(duì)回歸殘差做檢驗(yàn),因?yàn)榛貧w方程必須滿(mǎn)足均值為0,獨(dú)立,正態(tài)分布,否則最小二乘估計(jì)對(duì)參數(shù)做估計(jì)就失效。如下為殘差圖,基本上是零散的分布。基本上可以說(shuō)殘差獨(dú)立分布,方程參數(shù)估計(jì)有效。
此外關(guān)于正態(tài)分布,可以參考以下的正態(tài)概率圖來(lái)分析:
通過(guò)以上的回歸分析,我們看到每日的DAU確實(shí)對(duì)于PCU的拉動(dòng)起到顯著作用和影響,但由于擬合方程系數(shù)僅為0.68,說(shuō)明在DAU這個(gè)顯著影響因素之外還有其他的影響因素,剛才我們計(jì)算了31個(gè)觀測(cè)值,有21個(gè)符合該方程,10個(gè)觀測(cè)值不符合該方程,其實(shí)這個(gè)觀測(cè)值可能周末效應(yīng)作用,影響了系數(shù)的高低。
剩下的PCU與ACU、DAU與新登的回歸分析大家自己參照這個(gè)過(guò)程可以進(jìn)行,分析需要警惕一點(diǎn)的是不同的游戲,反映出的結(jié)論不一樣,就如同有的游戲有周末化學(xué)反應(yīng),而有的游戲就沒(méi)有,鄙人接觸過(guò)這種游戲,因此在做回歸分析時(shí),要注意這些理論之外的事項(xiàng),對(duì)于分析會(huì)有很大的幫助。
p.s.其實(shí)SPSS也可以做回歸分析,效果比Excel還好一些,不過(guò)還是建議大家先把簡(jiǎn)單的搞好,搞明白,對(duì)于DAU、PCU、ACU、新登的回歸分析,也可以幫助預(yù)測(cè)未來(lái)數(shù)據(jù),回歸分析是很復(fù)雜的一類(lèi)分析,雖然在使用操作很簡(jiǎn)單,不過(guò)在其背后有很多值得學(xué)習(xí)的地方值得思考的地方,還需要多多練習(xí)和思考,做數(shù)據(jù)分析在某個(gè)角度和搞科研是一樣的,要有嚴(yán)謹(jǐn)?shù)膽B(tài)度和研究分析要求,比如線(xiàn)性回歸的使用必須要遵循幾個(gè)條件,這是非常重要的,也是必須的,如果不確立好這些,做出來(lái)的東西也是錯(cuò)誤的,就像本來(lái)數(shù)據(jù)是三角形的,你非要用一個(gè)圓形的理論和模型來(lái)作為分析方法,根本就是錯(cuò)誤的。
參考
http://hi.baidu.com/healthstat/blog/item/8f215df1ad7464a8a40f52d4.html
Excel統(tǒng)計(jì)分析與應(yīng)用 梁燁 柏芳 編著
轉(zhuǎn)載于:https://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/04/11/2442843.html
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的小白学数据分析-----回归分析在游戏人气分析的应用探索的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: sdfdfd
- 下一篇: 开发管理 (2) -规划项目