小白学数据分析--回归分析在游戏人气分析的应用探索
小白學(xué)數(shù)據(jù)分析--回歸分析在游戲人氣分析的應(yīng)用探索
昨天簡單說了一下相關(guān)分析在充值購買失衡方面的應(yīng)用,今天就接著昨天的話題,說一下回歸分析(Regression??Analysis),回歸分析是研究一個(gè)變量(因變量)和另一個(gè)變量(自變量)關(guān)系的統(tǒng)計(jì)方法,用最小二乘方法擬合因變量和自變量的回歸模型,把一種不確定的關(guān)系的若干變量轉(zhuǎn)化為有確定關(guān)系的方程模型近似分析,并且通過自變量的變化來預(yù)測因變來預(yù)測因變量的變化趨勢,在回歸分析中兩個(gè)變量的地位是不平等的,考察某一個(gè)變量的變化是依存于其他變量的變化程度,就是存在因果關(guān)系。
今天將利用回歸分析對(duì)游戲數(shù)據(jù)分析的某些指標(biāo)進(jìn)行分析探討,有關(guān)于回歸分析的一些理論這里不再講解,百度即可。今天針對(duì)DAU、PCU、ACU、新登等指標(biāo)進(jìn)行回歸分析。一般而言我們可以使用Excel就能做一元回歸分析,Excel做回歸分析有兩種方式:散點(diǎn)圖和回歸分析工具。散點(diǎn)圖通過添加趨勢線可以直觀的顯示自變量和因變量的關(guān)系,如果不存在明顯的線性或者曲線關(guān)系,就放棄建立回歸模型,趨勢線能夠輸出方程和擬合有度(R-square,該值越接近1,方程擬合越好)。第二種方法采用回歸分析工具,能夠更加詳細(xì)的輸出回歸分析指標(biāo)相關(guān)信息,便于更加仔細(xì)的進(jìn)行分析和預(yù)測。
回歸分析分為線性回歸分析和非線性回歸分析,首先來看一下線性回歸分析。
如果我們使用線性回歸分析其實(shí)有些前提要考慮:
1)??自變量與因變量的關(guān)系,是否是呈直線,是否是一個(gè)變量依存于另個(gè)變量的變化程度,如剛才所言,變量之間的地位是不平等的。
2)??因變量是否符合正態(tài)分布。
3)??因變量數(shù)值之間是否獨(dú)立。
4)??方差是否齊性。
一般來說,按照回歸分析工具得出的結(jié)果來看,應(yīng)著重看看殘差(residual)是否是正態(tài)、獨(dú)立以及方差齊性,殘差就是因變量的實(shí)際值與估計(jì)值的差值。其實(shí)實(shí)際應(yīng)用中,這些理論的條框我們有時(shí)候搞不懂,那么我們可以通過其他辦法來看,這就是通過散點(diǎn)圖就能把以上條框搞定。
是否呈現(xiàn)直線關(guān)系,通過散點(diǎn)圖就能看出來,如下圖所示,大致呈現(xiàn)直線關(guān)系。
對(duì)于正態(tài)分布可以考察殘差的正態(tài)概率圖,如果正態(tài)概率圖呈現(xiàn)一條直線表示符合正態(tài)分布,當(dāng)然了也可以通過正態(tài)性檢驗(yàn)方法來檢驗(yàn)一下是否符合正態(tài)分布。
是否方差齊,可以用殘差的分布來看,即以因變量的預(yù)測值為x軸,以殘差為y軸作圖,如果殘差無明顯的分布,表明方差齊性。如果有一定的趨勢,可能存在方差不齊的情況,如下圖隨著x軸的增加殘差的范圍逐漸增大,明顯的方差不齊的情形。
對(duì)于是否獨(dú)立,也可以通過圖形來看, 隨著時(shí)間的變化,因變量應(yīng)該沒有任何趨勢,否則可能表明因變量之間有一定的相關(guān)性。還可通過Durbin-Watson法檢驗(yàn)是否獨(dú)立。
今天我們將探討DAU與PCU、PCU與ACU、DAU與首登三組的回歸分析。
首先來看DAU與PCU的回歸分析。我們選取一個(gè)月的數(shù)據(jù),作為分析數(shù)據(jù),首先我們來繪制散點(diǎn)圖(這里不具體講解散點(diǎn)圖繪制方法)
DAU與PCU
我們繪制散點(diǎn)圖,并選擇線性趨勢線,得到如下的散點(diǎn)圖:
之后我們通過回歸分析工具進(jìn)行回歸分析結(jié)果的匯總來具體解析一下,操作如下:
點(diǎn)擊數(shù)據(jù)|數(shù)據(jù)分析,如下所示:
找到回歸分析
之后確定,并要把進(jìn)行分析的數(shù)據(jù)引用單元格選好,殘差和正態(tài)分布相關(guān)選項(xiàng)全部勾選,如下所示。
最后會(huì)在新的工作表組生成結(jié)果,形式如下所示:
表格術(shù)語解釋一下:
df=degree of freedom 自由度
SS? ? Stdev square 方差
MS? ?Mean square??均方差
F聯(lián)合檢驗(yàn)F值
coefficient回歸系數(shù)
standard error標(biāo)準(zhǔn)差
T-stat T檢驗(yàn)值=回歸系數(shù)/標(biāo)準(zhǔn)差
P-value P值,T檢驗(yàn)值查表對(duì)應(yīng)的P概率值
Lower 95%和upper 95%置信度為95%的下限和上限區(qū)間
其實(shí)對(duì)于建立的回歸模型,我們還要進(jìn)行方程的統(tǒng)計(jì)檢驗(yàn),檢驗(yàn)的原假設(shè)回歸系數(shù)=0,如果拒絕原假設(shè)(p小于置信系數(shù)),則回歸系數(shù)不為0,回歸系數(shù)或者回歸方程顯著。
回歸工具為我們提供了三張圖,分別是殘差圖、線性擬合圖和正態(tài)概率圖。
如下圖為通過回歸分析工具得出的回歸分析匯總結(jié)果:
可以看到R-square為0.68,也就說68%的數(shù)據(jù)符合這個(gè)方程,擬合方程的觀測量為31個(gè),計(jì)算下來就是有21個(gè)數(shù)據(jù)項(xiàng)是符合該方程的,F統(tǒng)計(jì)量在原假設(shè)成立前提下概率為2.55944e-06遠(yuǎn)遠(yuǎn)小于顯著水平0.05,所以方程顯著。但是除了做回歸方程和回歸系數(shù)的顯著性檢驗(yàn)以外,還需要對(duì)回歸殘差做檢驗(yàn),因?yàn)榛貧w方程必須滿足均值為0,獨(dú)立,正態(tài)分布,否則最小二乘估計(jì)對(duì)參數(shù)做估計(jì)就失效。如下為殘差圖,基本上是零散的分布。基本上可以說殘差獨(dú)立分布,方程參數(shù)估計(jì)有效。
此外關(guān)于正態(tài)分布,可以參考以下的正態(tài)概率圖來分析:
通過以上的回歸分析,我們看到每日的DAU確實(shí)對(duì)于PCU的拉動(dòng)起到顯著作用和影響,但由于擬合方程系數(shù)僅為0.68,說明在DAU這個(gè)顯著影響因素之外還有其他的影響因素,剛才我們計(jì)算了31個(gè)觀測值,有21個(gè)符合該方程,10個(gè)觀測值不符合該方程,其實(shí)這個(gè)觀測值可能周末效應(yīng)作用,影響了系數(shù)的高低。
剩下的PCU與ACU、DAU與新登的回歸分析大家自己參照這個(gè)過程可以進(jìn)行,分析需要警惕一點(diǎn)的是不同的游戲,反映出的結(jié)論不一樣,就如同有的游戲有周末化學(xué)反應(yīng),而有的游戲就沒有,鄙人接觸過這種游戲,因此在做回歸分析時(shí),要注意這些理論之外的事項(xiàng),對(duì)于分析會(huì)有很大的幫助。
p.s.其實(shí)SPSS也可以做回歸分析,效果比Excel還好一些,不過還是建議大家先把簡單的搞好,搞明白,對(duì)于DAU、PCU、ACU、新登的回歸分析,也可以幫助預(yù)測未來數(shù)據(jù),回歸分析是很復(fù)雜的一類分析,雖然在使用操作很簡單,不過在其背后有很多值得學(xué)習(xí)的地方值得思考的地方,還需要多多練習(xí)和思考,做數(shù)據(jù)分析在某個(gè)角度和搞科研是一樣的,要有嚴(yán)謹(jǐn)?shù)膽B(tài)度和研究分析要求,比如線性回歸的使用必須要遵循幾個(gè)條件,這是非常重要的,也是必須的,如果不確立好這些,做出來的東西也是錯(cuò)誤的,就像本來數(shù)據(jù)是三角形的,你非要用一個(gè)圓形的理論和模型來作為分析方法,根本就是錯(cuò)誤的。http://www.cda.cn/view/17893.html
轉(zhuǎn)載于:https://www.cnblogs.com/amengduo/p/9587465.html
總結(jié)
以上是生活随笔為你收集整理的小白学数据分析--回归分析在游戏人气分析的应用探索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】常见浏览器兼容性问题与解决方案cs
- 下一篇: 015.