异常数据4种剔除方法_数据分析系列 22/32 | 9种常用的数据分析方法
要使各種結(jié)構(gòu)化的、非結(jié)構(gòu)化的、海量的數(shù)據(jù)實(shí)現(xiàn)標(biāo)準(zhǔn)化、信息化,能夠提供業(yè)務(wù)績(jī)效評(píng)估、業(yè)務(wù)決策支持等要求,我們首先需要進(jìn)行數(shù)據(jù)分析。
同時(shí),圍繞業(yè)務(wù)問題,采用合適的分析方法,分析模型,以及分析工具,這是數(shù)據(jù)分析師的必備技能。這里介紹了一些常用的數(shù)據(jù)分析方法供大家參考。
PART
01
一般統(tǒng)計(jì)類
一、描述性統(tǒng)計(jì)
描述性統(tǒng)計(jì)是一類統(tǒng)計(jì)方法的匯總,揭示了數(shù)據(jù)分布特性。它主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢(shì)分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態(tài)性檢驗(yàn):很多統(tǒng)計(jì)方法都要求數(shù)值服從或近似服從正態(tài)分布,所以在做數(shù)據(jù)分析之前需要進(jìn)行正態(tài)性檢驗(yàn)。常用方法:非參數(shù)檢驗(yàn)的K-量檢驗(yàn)、P-P圖、Q-Q圖、W檢驗(yàn)、動(dòng)差法。
二、回歸分析
回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律。
1. 一元線性分析
只有一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2. 多元線性回歸分析
使用條件:分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變量,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對(duì)因變量的分布沒有要求,一般用于因變量是離散時(shí)的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等。
三、方差分析
使用條件:各樣本須是相互獨(dú)立的隨機(jī)樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
1. 單因素方差分析:一項(xiàng)試驗(yàn)只有一個(gè)影響因素,或者存在多個(gè)影響因素時(shí),只分析一個(gè)因素與響應(yīng)變量的關(guān)系。
2. 多因素有交互方差分析:一頊實(shí)驗(yàn)有多個(gè)影響因素,分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,同時(shí)考慮多個(gè)影響因素之間的關(guān)系。
3. 多因素?zé)o交互方差分析:分析多個(gè)影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系。
4. 協(xié)方差分析:傳統(tǒng)的方差分析存在明顯的弊端,無(wú)法控制分析中存在的某些隨機(jī)因素,降低了分析結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對(duì)修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法。
四、假設(shè)檢驗(yàn)
1. 參數(shù)檢驗(yàn)
參數(shù)檢驗(yàn)是在已知總體分布的條件下(一般要求總體服從正態(tài)分布)對(duì)一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗(yàn)。
2. 非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)則不考慮總體分布是否已知,常常也不是針對(duì)總體參數(shù),而是針對(duì)總體的某些一般性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗(yàn)。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
1)雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
2)總體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗(yàn)、秩和檢驗(yàn)、二項(xiàng)檢驗(yàn)、游程檢驗(yàn)、K-量檢驗(yàn)等。
PART
02
數(shù)據(jù)挖掘類
五、相關(guān)分析
相關(guān)分析是一種非確定性的關(guān)系,研究現(xiàn)象之間是否存在某種依存關(guān)系,并對(duì)具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。
1.單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量;
2.復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量相關(guān);
3.偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場(chǎng)合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)。
六、聚類分析
聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,因此同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。
1)系統(tǒng)聚類法:適用于小樣本的樣本聚類或指標(biāo)聚類,一般用系統(tǒng)聚類法來聚類指標(biāo),又稱分層聚類。
2)逐步聚類法 :適用于大樣本的樣本聚類。
3)其他聚類法 :兩步聚類、K均值聚類等。
七、判別分析
判別分析,是一種統(tǒng)計(jì)判別和分組技術(shù),就一定數(shù)量樣本的一個(gè)分組變量和相應(yīng)的其他多元變量的已知信息,確定分組與其他多元變量信息所屬的樣本進(jìn)行判別分組。
判別分析與聚類分析的區(qū)別
1.聚類分析可以對(duì)樣本逬行分類,也可以對(duì)指標(biāo)進(jìn)行分類;而判別分析只能對(duì)樣本進(jìn)行分類;
2.聚類分析事先不知道事物的類別,也不知道分為幾類;而判別分析必須事先知道事物的類別,并且知道分幾類;
3.聚類分析不需要分類的歷史資料,而直接對(duì)樣本進(jìn)行分類;而判別分析需要分類歷史資料去建立判別函數(shù),然后才能對(duì)樣本進(jìn)行分類。
八、因子分析
因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù),從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少?zèng)Q策的困難。因子分析的方法約有10多種,如重心法、影像分析法、最大似然法、最小平方法、阿爾法抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都是近似方法,以相關(guān)系數(shù)矩陣為基礎(chǔ)。在社會(huì)學(xué)研究中,因子分析常采用以主成分分析為基礎(chǔ)的反復(fù)法。
九、主成分分析
通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。其主要思想是降維,將n維特征映射到k維上(k
與因子分析比較:
相同:都能夠起到分析多個(gè)原始變量?jī)?nèi)在結(jié)構(gòu)關(guān)系的作用;
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關(guān)系。
以上就是我們今天說的9種常用的數(shù)據(jù)分析方法,后期我們會(huì)一一舉例子應(yīng)用,敬請(qǐng)期待。
歡迎關(guān)注微信公眾號(hào),訪問更多精彩:數(shù)據(jù)之魅。
如需轉(zhuǎn)載,請(qǐng)聯(lián)系授權(quán),謝謝合作。
總結(jié)
以上是生活随笔為你收集整理的异常数据4种剔除方法_数据分析系列 22/32 | 9种常用的数据分析方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: send函数 获得已发送数据长度_蓝牙B
- 下一篇: localdatetime转化为date