當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析统计知识—描述性统计

發(fā)布時(shí)間：2023/12/14 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析统计知识—描述性统计小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

整理一下自己所掌握的數(shù)據(jù)分析中涉及的統(tǒng)計(jì)學(xué)知識(shí)點(diǎn)，參考的文章或鏈接會(huì)放在下面，此篇為描述性統(tǒng)計(jì)相關(guān)，涵蓋的并不全面，后續(xù)會(huì)慢慢的完善，如有紕漏歡迎指正~

知識(shí)點(diǎn)參考來源

?一、樣本常見屬性

?1.1 位置的度量

1.1.1? 算術(shù)平均數(shù)

1.1.2 加權(quán)平均數(shù)

1.1.3 中位數(shù)

1.1.4 幾何平均數(shù)

1.1.5 眾數(shù)

1.1.6 百分位數(shù)

1.2 變異程度的度量

1.2.1 極差

1.2.2 四分位數(shù)間距IQR

?1.2.3 方差

1.2.4 標(biāo)準(zhǔn)差

1.3 Z-分?jǐn)?shù)

1.4 分布形態(tài)

1.4.1 正態(tài)分布

1.4.2 正偏態(tài)分布?

?1.4.3 負(fù)偏態(tài)分布

1.5?兩變量間關(guān)系的度量

1.5.1 協(xié)方差

1.5.2 相關(guān)系數(shù)

二、常見定理

2.1?切比雪夫定理

2.2 經(jīng)驗(yàn)法則（3σ法則）

2.3?幸存者偏差

2.4?辛普森悖論

2.5 異常值檢測

2.5.1 z-分?jǐn)?shù)法

2.5.2 上下限法

三、數(shù)據(jù)分布

3.1 離散型概率分布

3.1.1 二項(xiàng)分布

3.1.2 伯努利分布

3.1.3 泊松分布

3.1.4?超幾何分布

3.2 連續(xù)型概率分布

3.2.1 均勻分布

3.2.2 正態(tài)分布

3.2.3?指數(shù)概率分布

知識(shí)點(diǎn)參考來源

1.《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》（原書第13版）
2.《校招面試考點(diǎn)全解析——數(shù)據(jù)分析師篇》
3.百度

?一、樣本常見屬性

?1.1 位置的度量

1.1.1? 算術(shù)平均數(shù)

平均數(shù)體現(xiàn)的是對(duì)數(shù)據(jù)集的中心位置的度量，當(dāng)數(shù)據(jù)來自某個(gè)樣本時(shí)，平均數(shù)用x表示；如果數(shù)據(jù)是來自總體，則我們用希臘字母μ表示。

算術(shù)平均數(shù)，即一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個(gè)數(shù)所得到的值

公式為

1.1.2 加權(quán)平均數(shù)

即將各數(shù)值乘以相應(yīng)的權(quán)數(shù)，然后加總求和得到總體值，再除以總的單位數(shù)。

公式為?，式中，為第i個(gè)觀測值的權(quán)重。

1.1.3 中位數(shù)

將所有數(shù)據(jù)按升序排列后，位于中間的數(shù)值即為中位數(shù)。

當(dāng)數(shù)據(jù)量為奇數(shù)時(shí)，中位數(shù)就是位于中間那個(gè)數(shù)值；當(dāng)數(shù)據(jù)量為偶數(shù)時(shí)，中位數(shù)是中間兩個(gè)數(shù)值的平均數(shù)。

當(dāng)數(shù)據(jù)集中含有極端值時(shí)，使用中位數(shù)作為中心位置的度量會(huì)比平均數(shù)更合適。比如，計(jì)算全國人民的收入時(shí)，中位數(shù)就比平均數(shù)更能體現(xiàn)收入的中心位置。

1.1.4 幾何平均數(shù)

它是n個(gè)數(shù)值乘積的n次方根，記為，常常用于分析如增長率等問題。

公式為

1.1.5 眾數(shù)

眾數(shù)即為數(shù)據(jù)集中出現(xiàn)次數(shù)最多的數(shù)據(jù)。

1.1.6 百分位數(shù)

百分位數(shù)提供了數(shù)據(jù)是如何散布在從最小值到最大值的區(qū)間上的信息。

第p百分位數(shù)位置，n為數(shù)據(jù)量。

其中，四分位數(shù)是一種特殊的百分位數(shù)，它將數(shù)據(jù)劃分為四部分，每一部分大約包含了的觀測值，因此可以用計(jì)算百分位數(shù)的方法計(jì)算四分位數(shù)。

一般：=第一四分位數(shù)，又叫第25百分位數(shù)

? ? ? ? ? ?=第二四分位數(shù)，又叫第50百分位數(shù)，同時(shí)也是中位數(shù)

? ? ? ? ? ?=第三四分位數(shù)，又叫第75百分位數(shù)

? ?

1.2 變異程度的度量

除了位置的度量外，我們往往還需要考慮變異程度，即離散程度的度量。

1.2.1 極差

是最容易計(jì)算的體現(xiàn)變異程度的度量，同時(shí)也極易受到異常值的影響。

極差=最大值-最小值

1.2.2 四分位數(shù)間距IQR

為第三四分位數(shù)-第一四分位數(shù)的差值，即為中間50%的極差。

?1.2.3 方差

?是最常見的變異程度的度量，依賴于每個(gè)觀察值（）與平均值之間的差異。

總體方差，μ為總體均值，N為總體的數(shù)據(jù)量

樣本方差，為樣本均值，n為樣本的數(shù)據(jù)量

1.2.4 標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差為方差的正平方根。

樣本標(biāo)準(zhǔn)差?

總體標(biāo)準(zhǔn)差

1.3 Z-分?jǐn)?shù)

z-分?jǐn)?shù)作為相對(duì)位置的度量值，可以幫助我們確定一個(gè)數(shù)據(jù)離平均數(shù)有多遠(yuǎn)。

z-分?jǐn)?shù)也稱為標(biāo)準(zhǔn)化數(shù)值。

1.4 分布形態(tài)

1.4.1 正態(tài)分布

變量的頻數(shù)或者頻率呈現(xiàn)中間最多，兩端逐漸對(duì)稱減少的一種分布規(guī)律。

舉例：一個(gè)年級(jí)學(xué)生的身高分布呈一個(gè)正態(tài)分布。

1.4.2 正偏態(tài)分布?

又叫做右偏態(tài)分布，特征是其平均數(shù)大于中位數(shù)，中數(shù)又大于眾數(shù)，這樣的一組數(shù)據(jù)的分布是屬于正偏態(tài)分布。

?1.4.3 負(fù)偏態(tài)分布

又叫做左偏態(tài)分布，特征是其平均數(shù)小于中位數(shù)，中數(shù)又小于于眾數(shù)，則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。

1.5?兩變量間關(guān)系的度量

1.5.1 協(xié)方差

樣本協(xié)方差

我們將每個(gè)與其樣本的平均數(shù)的離差乘以對(duì)應(yīng)的與其樣本平均數(shù)的離差，再將所有結(jié)果加總，然后除以n-1，所得的結(jié)果即為樣本協(xié)方差。協(xié)方差值越大，正線性相關(guān)關(guān)系越強(qiáng)，值越小，負(fù)線性相關(guān)關(guān)系也就越小。

1.5.2 相關(guān)系數(shù)

這里我們只涉及皮爾遜相關(guān)系數(shù)。又稱為線性相關(guān)系數(shù)，僅僅只能判斷樣本間變量是否存在線性關(guān)系，由協(xié)方差與方差的比值計(jì)算而來，取值在-1到1之間：

相關(guān)系數(shù)的絕對(duì)值越接近于1，線性相關(guān)關(guān)系越強(qiáng)，越接近于0，線性相關(guān)關(guān)系越弱。

二、常見定理

2.1?切比雪夫定理

與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)值所占的比例至少為，其中z是大于1的任意實(shí)數(shù)。

當(dāng)z=2,3,4時(shí)，該定理的一些應(yīng)用如下：

至少0.75或75%的數(shù)據(jù)值與平均數(shù)的距離在z=2個(gè)標(biāo)準(zhǔn)差之內(nèi)
至少0.89或89%的數(shù)據(jù)值與平均數(shù)的距離在z=3個(gè)標(biāo)準(zhǔn)差之內(nèi)
至少0.94或94%的數(shù)據(jù)值與平均數(shù)的距離在z=4個(gè)標(biāo)準(zhǔn)差之內(nèi)

2.2 經(jīng)驗(yàn)法則（3σ法則）

對(duì)于鐘型分布（即正態(tài)分布）的數(shù)據(jù)，有

大約68%的數(shù)據(jù)值與平均數(shù)在1個(gè)標(biāo)準(zhǔn)差之內(nèi)
大約95%的數(shù)據(jù)值與平均數(shù)在2個(gè)標(biāo)準(zhǔn)差之內(nèi)
幾乎所有的數(shù)據(jù)值與平均數(shù)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)

2.3?幸存者偏差

只看了經(jīng)過某種篩選而產(chǎn)生的結(jié)果，卻沒有意識(shí)到篩選的過程，因此忽略了被篩選掉的關(guān)鍵信息，在幸存者偏差這個(gè)問題中，我們觀察到的樣本是被篩選過的有偏樣本。

2.4?辛普森悖論

指某個(gè)條件下兩組數(shù)據(jù)單獨(dú)分析得到的結(jié)論，可能與將其綜合起來分析得到的結(jié)論截然相反。辛普森悖論在A/B試驗(yàn)中常作為高頻考點(diǎn)出現(xiàn)，這時(shí)候?qū)嶒?yàn)結(jié)果值得我們細(xì)細(xì)斟酌，甚至需要重新分配流量再次測試。

2.5 異常值檢測

2.5.1 z-分?jǐn)?shù)法

z-分?jǐn)?shù)可以用來檢測異常值，經(jīng)驗(yàn)法則告訴我們，對(duì)于正態(tài)分布的數(shù)據(jù)，幾乎所有的數(shù)據(jù)值與平均數(shù)的距離都在3個(gè)標(biāo)準(zhǔn)差之內(nèi)，因此，在利用z-分?jǐn)?shù)法來檢測異常值時(shí)，可以把z-分?jǐn)?shù)小于-3或者大于+3的所有數(shù)值都視作為異常值。

2.5.2 上下限法

確定異常值的另一種方法是上下限法，以第一四分位數(shù)與第三四分位數(shù)以及四分位數(shù)間距IQR為依據(jù)。首先我們計(jì)算數(shù)據(jù)集的上限和下限

上限=
下限=
IQR=

如果一個(gè)觀測值的數(shù)值大于上限或小于下限，則將其視作為為異常值。

三、數(shù)據(jù)分布

3.1 離散型概率分布

3.1.1 二項(xiàng)分布

指統(tǒng)計(jì)變量中只有性質(zhì)不同的兩項(xiàng)群體的概率分布。

二項(xiàng)代表事件往往只有兩種可能的結(jié)果，一種是成功，另一種是失敗。在n次獨(dú)立重復(fù)的實(shí)驗(yàn)中，假設(shè)每次實(shí)驗(yàn)A事件發(fā)生概率為p，X表示A事件發(fā)生的次數(shù).

存在公式：

性質(zhì)：

1）由一系列相同的n個(gè)試驗(yàn)組成

2）每次試驗(yàn)都有兩種可能的結(jié)果，我們把其中一個(gè) 稱為成功，另一個(gè)稱為失敗

3）每次試驗(yàn)成功的概率都是相同的，用p來表示，失敗的概率也相同，用1-p表示

4）試驗(yàn)是相互獨(dú)立的

3.1.2 伯努利分布

在概率論和統(tǒng)計(jì)學(xué)中，二項(xiàng)分布是n個(gè)獨(dú)立的成功/失敗試驗(yàn)中成功的次數(shù)的離散概率分布，其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。實(shí)際上，當(dāng)n=1時(shí)，二項(xiàng)分布就是伯努利分布。

3.1.3 泊松分布

泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。在排隊(duì)論中使用比較廣泛，比如說，在一個(gè)醫(yī)院中，假設(shè)每個(gè)病人來看病的概率都是隨機(jī)且獨(dú)立的，那么這個(gè)醫(yī)院在一天內(nèi)接受的病人呈泊松分布。

泊松分布的概率函數(shù)為：

泊松分布的參數(shù)λ是單位時(shí)間（或單位面積）內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。k為預(yù)計(jì)發(fā)生的次數(shù)。

3.1.4?超幾何分布

超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了從有限N個(gè)物件（其中包含M個(gè)指定種類的物件）中抽出n個(gè)物件，成功抽出該指定種類的物件的次數(shù)（不放回）。

3.2 連續(xù)型概率分布

3.2.1 均勻分布

均勻分布也叫矩形分布，它是對(duì)稱概率分布，在相同長度間隔的分布概率是等可能的。?

假設(shè)x服從[a,b]上的均勻分布，則x的概率密度函數(shù)如下：

3.2.2 正態(tài)分布

變量的頻數(shù)或者頻率呈現(xiàn)出中間最多，兩端逐漸對(duì)稱減少的一種分布規(guī)律。對(duì)于正態(tài)分布而言，均值=中位數(shù)=眾數(shù)。

3.2.3?指數(shù)概率分布

可用于描述如打到某加油站的兩輛車時(shí)間間隔、高速路上兩起重大事故發(fā)生地之間的距離等隨機(jī)變量。

定義：連續(xù)隨機(jī)變量X服從參數(shù)為λ的指數(shù)分布，其中λ>0為常數(shù)，記為X~E(λ)，它的概率密度為

總結(jié)

以上是生活随笔為你收集整理的数据分析统计知识—描述性统计的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Shiro 生成秘钥
下一篇： (转)War3 World Editor