java平均差_如何做好描述统计分析
寫在前面
什么是描述性統(tǒng)計(jì)分析,這不僅是數(shù)據(jù)分析面試中最常見的問題,也是我們?nèi)粘7治鲋斜剡^的一道關(guān)卡。
要把握數(shù)據(jù)的分布特征,需要從3個(gè)方面進(jìn)行描述:集中趨勢(shì)、離散程度和分布形狀。
1、集中趨勢(shì)
集中趨勢(shì)就是指一組數(shù)據(jù)向某一中心靠攏的程度,通常有以下指標(biāo):
眾數(shù)
對(duì)分類數(shù)據(jù)來說,眾數(shù)是最適合描述其集中趨勢(shì)的值,它是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量,眾數(shù)不受極端值的影響,但是可能不唯一,且當(dāng)數(shù)據(jù)量較多時(shí),才有意義。
中位數(shù)
對(duì)數(shù)據(jù)型數(shù)據(jù)來說,可以用中位數(shù)來描述其集中趨勢(shì)的度量,中位數(shù)就是將一組數(shù)據(jù)排序以后處于中間位置的值,那么如何尋找中間位置呢?
1、 將這組數(shù)據(jù)按順序排列
2、 中間數(shù)值所在的位置是(n+1)/2,n表示n個(gè)數(shù)
3、 當(dāng)n為奇數(shù)時(shí),中間位置的數(shù)就是中位數(shù),當(dāng)n為偶數(shù)時(shí),中間位置兩個(gè)數(shù)的均值為中位數(shù)。
顯然這里有兩種情況,當(dāng)n為奇數(shù)和偶數(shù)兩種情況,求下面這組數(shù)據(jù)的中位數(shù)0 1 2 3 4 5 6 7 8
這里n=9,中位數(shù)的位置=(9+1)/2 = 5,那么中位數(shù)就是4.0 1 2 3 4 5 6 7 8 9
當(dāng)n=10時(shí),中位數(shù)的位置是 (10+1)/2 = 5.5,那么中位數(shù)就是第5個(gè)位置的數(shù)和第6個(gè)位置的數(shù)的平均數(shù),也就是(4+5)/2 = 4.5
知道計(jì)算的原理,但其實(shí)不用我們自己去算,軟件中有相應(yīng)的函數(shù),如Excel中的median函數(shù)可以計(jì)算中位數(shù)。中位數(shù)也不受極值的影響。
四分位數(shù)
同樣,四分位數(shù)也是對(duì)數(shù)值型數(shù)據(jù)集中趨勢(shì)的度量,后面的度量都適用于數(shù)值型數(shù)據(jù)。四分位數(shù)就是將數(shù)據(jù)排序后四等分,處于25%(下四分位數(shù))和75%(上四分位數(shù))位置上的值即四分位數(shù),箱型圖可以很好地用來描述四分位數(shù)。
Excel中可以用quartile函數(shù)來計(jì)算四分位數(shù)。
平均數(shù)
簡(jiǎn)單平均數(shù):就是算術(shù)平均數(shù),所有數(shù)值相加再除以總個(gè)數(shù)。
加權(quán)平均數(shù):數(shù)據(jù)分組后每組有相應(yīng)的權(quán)重。
幾何平均數(shù):n個(gè)變量乘積的n次方根,主要用于計(jì)算平均比率,如增長(zhǎng)率的平均值。
Excel中用average函數(shù)計(jì)算平均數(shù)。
如果分布是對(duì)稱的,那么眾數(shù)=中位數(shù)=平均數(shù),如果數(shù)據(jù)左偏,那么平均數(shù)
2、離散程度
離散程度就是描述各個(gè)變量遠(yuǎn)離其中心值的程度,通常有以下指標(biāo):
異眾比率
指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,較多地用在分類數(shù)據(jù)中,用來體現(xiàn)眾數(shù)的代表性。異眾比率越大,說明非眾數(shù)組占比越大,那么眾數(shù)就不能很好地代表這組數(shù)據(jù)。
四分位差
對(duì)于數(shù)值型數(shù)據(jù),四分位差可以來描述數(shù)據(jù)的離散程度,四分位差就是上下四分位數(shù)的差。反映了中間50%數(shù)據(jù)的離散程度,四分位差越小,說明中間的數(shù)據(jù)越集中,
極差
極差就是最大值與最小值的差,容易受極值的影響。
平均差
各變量與其平均數(shù)離差絕對(duì)值的平均數(shù),反映了每個(gè)數(shù)與平均數(shù)的差異程度,Excel里用avedev計(jì)算平均差。
方差和標(biāo)準(zhǔn)差
對(duì)數(shù)值型數(shù)據(jù),怎么能少得了我們熟知的方差和標(biāo)準(zhǔn)差。方差就是各變量與其平均數(shù)離差平方的平均數(shù),方差的平方根就是標(biāo)準(zhǔn)差,方差和標(biāo)準(zhǔn)差是應(yīng)用最廣的描述數(shù)據(jù)離散程度的度量。Excel里用stdev來計(jì)算標(biāo)準(zhǔn)差。
3、分布形狀
描述分布形狀的度量有偏態(tài)和峰態(tài)
偏態(tài)
數(shù)據(jù)分布對(duì)稱性的描述,統(tǒng)計(jì)量是偏度,偏度>0,則頻數(shù)分布的高峰向左偏移,呈右(正)偏態(tài)分布;偏度<0,則頻數(shù)分布的高峰向右偏移,呈左(負(fù))偏態(tài)分布;|偏度|>1,呈高度偏態(tài),0.5
對(duì)于偏態(tài),在之前的文章 中也有寫過。
如何處理偏態(tài)數(shù)據(jù)?
峰態(tài)
是描述數(shù)據(jù)平峰或尖峰程度的度量。統(tǒng)計(jì)量是峰度。同偏態(tài)一樣,峰態(tài)也是與標(biāo)準(zhǔn)正態(tài)分布來比較的,峰度>0,數(shù)據(jù)分布更集中,為尖峰分布,峰度<0,數(shù)據(jù)分布更分散,為平峰分布。
以上提到的各種統(tǒng)計(jì)量除了用Excel中的函數(shù)來計(jì)算外,還可直接用【數(shù)據(jù)分析】功能中的【描述統(tǒng)計(jì)】命令直接得到。
超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的java平均差_如何做好描述统计分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jbpm springboot mysq
- 下一篇: java大话_大话JAVA(一)