日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java平均差_如何做好描述统计分析

發(fā)布時(shí)間:2024/4/11 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java平均差_如何做好描述统计分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

寫在前面

什么是描述性統(tǒng)計(jì)分析,這不僅是數(shù)據(jù)分析面試中最常見的問題,也是我們?nèi)粘7治鲋斜剡^的一道關(guān)卡。

要把握數(shù)據(jù)的分布特征,需要從3個(gè)方面進(jìn)行描述:集中趨勢(shì)、離散程度和分布形狀。

1、集中趨勢(shì)

集中趨勢(shì)就是指一組數(shù)據(jù)向某一中心靠攏的程度,通常有以下指標(biāo):

眾數(shù)

對(duì)分類數(shù)據(jù)來說,眾數(shù)是最適合描述其集中趨勢(shì)的值,它是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量,眾數(shù)不受極端值的影響,但是可能不唯一,且當(dāng)數(shù)據(jù)量較多時(shí),才有意義。

中位數(shù)

對(duì)數(shù)據(jù)型數(shù)據(jù)來說,可以用中位數(shù)來描述其集中趨勢(shì)的度量,中位數(shù)就是將一組數(shù)據(jù)排序以后處于中間位置的值,那么如何尋找中間位置呢?

1、 將這組數(shù)據(jù)按順序排列

2、 中間數(shù)值所在的位置是(n+1)/2,n表示n個(gè)數(shù)

3、 當(dāng)n為奇數(shù)時(shí),中間位置的數(shù)就是中位數(shù),當(dāng)n為偶數(shù)時(shí),中間位置兩個(gè)數(shù)的均值為中位數(shù)。

顯然這里有兩種情況,當(dāng)n為奇數(shù)和偶數(shù)兩種情況,求下面這組數(shù)據(jù)的中位數(shù)0 1 2 3 4 5 6 7 8

這里n=9,中位數(shù)的位置=(9+1)/2 = 5,那么中位數(shù)就是4.0 1 2 3 4 5 6 7 8 9

當(dāng)n=10時(shí),中位數(shù)的位置是 (10+1)/2 = 5.5,那么中位數(shù)就是第5個(gè)位置的數(shù)和第6個(gè)位置的數(shù)的平均數(shù),也就是(4+5)/2 = 4.5

知道計(jì)算的原理,但其實(shí)不用我們自己去算,軟件中有相應(yīng)的函數(shù),如Excel中的median函數(shù)可以計(jì)算中位數(shù)。中位數(shù)也不受極值的影響。

四分位數(shù)

同樣,四分位數(shù)也是對(duì)數(shù)值型數(shù)據(jù)集中趨勢(shì)的度量,后面的度量都適用于數(shù)值型數(shù)據(jù)。四分位數(shù)就是將數(shù)據(jù)排序后四等分,處于25%(下四分位數(shù))和75%(上四分位數(shù))位置上的值即四分位數(shù),箱型圖可以很好地用來描述四分位數(shù)。

Excel中可以用quartile函數(shù)來計(jì)算四分位數(shù)。

平均數(shù)

簡(jiǎn)單平均數(shù):就是算術(shù)平均數(shù),所有數(shù)值相加再除以總個(gè)數(shù)。

加權(quán)平均數(shù):數(shù)據(jù)分組后每組有相應(yīng)的權(quán)重。

幾何平均數(shù):n個(gè)變量乘積的n次方根,主要用于計(jì)算平均比率,如增長(zhǎng)率的平均值。

Excel中用average函數(shù)計(jì)算平均數(shù)。

如果分布是對(duì)稱的,那么眾數(shù)=中位數(shù)=平均數(shù),如果數(shù)據(jù)左偏,那么平均數(shù)

2、離散程度

離散程度就是描述各個(gè)變量遠(yuǎn)離其中心值的程度,通常有以下指標(biāo):

異眾比率

指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,較多地用在分類數(shù)據(jù)中,用來體現(xiàn)眾數(shù)的代表性。異眾比率越大,說明非眾數(shù)組占比越大,那么眾數(shù)就不能很好地代表這組數(shù)據(jù)。

四分位差

對(duì)于數(shù)值型數(shù)據(jù),四分位差可以來描述數(shù)據(jù)的離散程度,四分位差就是上下四分位數(shù)的差。反映了中間50%數(shù)據(jù)的離散程度,四分位差越小,說明中間的數(shù)據(jù)越集中,

極差

極差就是最大值與最小值的差,容易受極值的影響。

平均差

各變量與其平均數(shù)離差絕對(duì)值的平均數(shù),反映了每個(gè)數(shù)與平均數(shù)的差異程度,Excel里用avedev計(jì)算平均差。

方差和標(biāo)準(zhǔn)差

對(duì)數(shù)值型數(shù)據(jù),怎么能少得了我們熟知的方差和標(biāo)準(zhǔn)差。方差就是各變量與其平均數(shù)離差平方的平均數(shù),方差的平方根就是標(biāo)準(zhǔn)差,方差和標(biāo)準(zhǔn)差是應(yīng)用最廣的描述數(shù)據(jù)離散程度的度量。Excel里用stdev來計(jì)算標(biāo)準(zhǔn)差。

3、分布形狀

描述分布形狀的度量有偏態(tài)和峰態(tài)

偏態(tài)

數(shù)據(jù)分布對(duì)稱性的描述,統(tǒng)計(jì)量是偏度,偏度>0,則頻數(shù)分布的高峰向左偏移,呈右(正)偏態(tài)分布;偏度<0,則頻數(shù)分布的高峰向右偏移,呈左(負(fù))偏態(tài)分布;|偏度|>1,呈高度偏態(tài),0.5

對(duì)于偏態(tài),在之前的文章 中也有寫過。

如何處理偏態(tài)數(shù)據(jù)?

峰態(tài)

是描述數(shù)據(jù)平峰或尖峰程度的度量。統(tǒng)計(jì)量是峰度。同偏態(tài)一樣,峰態(tài)也是與標(biāo)準(zhǔn)正態(tài)分布來比較的,峰度>0,數(shù)據(jù)分布更集中,為尖峰分布,峰度<0,數(shù)據(jù)分布更分散,為平峰分布。

以上提到的各種統(tǒng)計(jì)量除了用Excel中的函數(shù)來計(jì)算外,還可直接用【數(shù)據(jù)分析】功能中的【描述統(tǒng)計(jì)】命令直接得到。

超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的java平均差_如何做好描述统计分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。