日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析统计知识—描述性统计

發(fā)布時(shí)間:2023/12/14 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析统计知识—描述性统计 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

整理一下自己所掌握的數(shù)據(jù)分析中涉及的統(tǒng)計(jì)學(xué)知識(shí)點(diǎn),參考的文章或鏈接會(huì)放在下面,此篇為描述性統(tǒng)計(jì)相關(guān),涵蓋的并不全面,后續(xù)會(huì)慢慢的完善,如有紕漏歡迎指正~

目錄

知識(shí)點(diǎn)參考來源

?一、樣本常見屬性

?1.1 位置的度量

1.1.1? 算術(shù)平均數(shù)

1.1.2 加權(quán)平均數(shù)

1.1.3 中位數(shù)

1.1.4 幾何平均數(shù)

1.1.5 眾數(shù)

1.1.6 百分位數(shù)

1.2 變異程度的度量

1.2.1 極差

1.2.2 四分位數(shù)間距IQR

?1.2.3 方差

1.2.4 標(biāo)準(zhǔn)差

1.3 Z-分?jǐn)?shù)

1.4 分布形態(tài)

1.4.1 正態(tài)分布

1.4.2 正偏態(tài)分布?

?1.4.3 負(fù)偏態(tài)分布

1.5?兩變量間關(guān)系的度量

1.5.1 協(xié)方差

1.5.2 相關(guān)系數(shù)

二、常見定理

2.1?切比雪夫定理

2.2 經(jīng)驗(yàn)法則(3σ法則)

2.3?幸存者偏差

2.4?辛普森悖論

2.5 異常值檢測

2.5.1 z-分?jǐn)?shù)法

2.5.2 上下限法

三、數(shù)據(jù)分布

3.1 離散型概率分布

3.1.1 二項(xiàng)分布

3.1.2 伯努利分布

3.1.3 泊松分布

3.1.4?超幾何分布

3.2 連續(xù)型概率分布

3.2.1 均勻分布

3.2.2 正態(tài)分布

3.2.3?指數(shù)概率分布



知識(shí)點(diǎn)參考來源


1.《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》(原書第13版)
2.《校招面試考點(diǎn)全解析——數(shù)據(jù)分析師篇》
3.百度



?一、樣本常見屬性


?1.1 位置的度量


1.1.1? 算術(shù)平均數(shù)


平均數(shù)體現(xiàn)的是對(duì)數(shù)據(jù)集的中心位置的度量,當(dāng)數(shù)據(jù)來自某個(gè)樣本時(shí),平均數(shù)用x表示;如果數(shù)據(jù)是來自總體,則我們用希臘字母μ表示。

算術(shù)平均數(shù),即一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個(gè)數(shù)所得到的值

公式為

1.1.2 加權(quán)平均數(shù)

即將各數(shù)值乘以相應(yīng)的權(quán)數(shù),然后加總求和得到總體值,再除以總的單位數(shù)。

公式為?,式中,為第i個(gè)觀測值的權(quán)重。

1.1.3 中位數(shù)

將所有數(shù)據(jù)按升序排列后,位于中間的數(shù)值即為中位數(shù)。

當(dāng)數(shù)據(jù)量為奇數(shù)時(shí),中位數(shù)就是位于中間那個(gè)數(shù)值;當(dāng)數(shù)據(jù)量為偶數(shù)時(shí),中位數(shù)是中間兩個(gè)數(shù)值的平均數(shù)。

當(dāng)數(shù)據(jù)集中含有極端值時(shí),使用中位數(shù)作為中心位置的度量會(huì)比平均數(shù)更合適。比如,計(jì)算全國人民的收入時(shí),中位數(shù)就比平均數(shù)更能體現(xiàn)收入的中心位置。

1.1.4 幾何平均數(shù)

它是n個(gè)數(shù)值乘積的n次方根,記為,常常用于分析如增長率等問題。

公式為

1.1.5 眾數(shù)

眾數(shù)即為數(shù)據(jù)集中出現(xiàn)次數(shù)最多的數(shù)據(jù)。

1.1.6 百分位數(shù)

百分位數(shù)提供了數(shù)據(jù)是如何散布在從最小值到最大值的區(qū)間上的信息。

第p百分位數(shù)位置,n為數(shù)據(jù)量。

其中,四分位數(shù)是一種特殊的百分位數(shù),它將數(shù)據(jù)劃分為四部分,每一部分大約包含了的觀測值,因此可以用計(jì)算百分位數(shù)的方法計(jì)算四分位數(shù)。

一般:=第一四分位數(shù),又叫第25百分位數(shù)

? ? ? ? ? ?=第二四分位數(shù),又叫第50百分位數(shù),同時(shí)也是中位數(shù)

? ? ? ? ? ?=第三四分位數(shù),又叫第75百分位數(shù)

? ?

1.2 變異程度的度量

除了位置的度量外,我們往往還需要考慮變異程度,即離散程度的度量。

1.2.1 極差

是最容易計(jì)算的體現(xiàn)變異程度的度量,同時(shí)也極易受到異常值的影響。

極差=最大值-最小值

1.2.2 四分位數(shù)間距IQR

為第三四分位數(shù)-第一四分位數(shù)的差值,即為中間50%的極差。

?1.2.3 方差

?是最常見的變異程度的度量, 依賴于每個(gè)觀察值()與平均值之間的差異。

總體方差,μ為總體均值,N為總體的數(shù)據(jù)量

樣本方差,為樣本均值,n為樣本的數(shù)據(jù)量

1.2.4 標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差為方差的正平方根。

樣本標(biāo)準(zhǔn)差?

總體標(biāo)準(zhǔn)差

1.3 Z-分?jǐn)?shù)

z-分?jǐn)?shù)作為相對(duì)位置的度量值,可以幫助我們確定一個(gè)數(shù)據(jù)離平均數(shù)有多遠(yuǎn)。

z-分?jǐn)?shù)也稱為標(biāo)準(zhǔn)化數(shù)值。

1.4 分布形態(tài)

1.4.1 正態(tài)分布

變量的頻數(shù)或者頻率呈現(xiàn)中間最多,兩端逐漸對(duì)稱減少的一種分布規(guī)律。

舉例:一個(gè)年級(jí)學(xué)生的身高分布呈一個(gè)正態(tài)分布。

1.4.2 正偏態(tài)分布?

又叫做右偏態(tài)分布,特征是其平均數(shù)大于中位數(shù),中數(shù)又大于眾數(shù),這樣的一組數(shù)據(jù)的分布是屬于正偏態(tài)分布。

?

?1.4.3 負(fù)偏態(tài)分布

又叫做左偏態(tài)分布,特征是其平均數(shù)小于中位數(shù),中數(shù)又小于于眾數(shù),則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。

1.5?兩變量間關(guān)系的度量

1.5.1 協(xié)方差

樣本協(xié)方差

我們將每個(gè)與其樣本的平均數(shù)的離差乘以對(duì)應(yīng)的與其樣本平均數(shù)的離差,再將所有結(jié)果加總,然后除以n-1,所得的結(jié)果即為樣本協(xié)方差。協(xié)方差值越大,正線性相關(guān)關(guān)系越強(qiáng),值越小,負(fù)線性相關(guān)關(guān)系也就越小。

1.5.2 相關(guān)系數(shù)

這里我們只涉及皮爾遜相關(guān)系數(shù)。又稱為線性相關(guān)系數(shù),僅僅只能判斷樣本間變量是否存在線性關(guān)系,由協(xié)方差與方差的比值計(jì)算而來,取值在-1到1之間:

相關(guān)系數(shù)的絕對(duì)值越接近于1,線性相關(guān)關(guān)系越強(qiáng),越接近于0,線性相關(guān)關(guān)系越弱。


二、常見定理

2.1?切比雪夫定理

與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)值所占的比例至少為,其中z是大于1的任意實(shí)數(shù)。

當(dāng)z=2,3,4時(shí),該定理的一些應(yīng)用如下:

  • 至少0.75或75%的數(shù)據(jù)值與平均數(shù)的距離在z=2個(gè)標(biāo)準(zhǔn)差之內(nèi)
  • 至少0.89或89%的數(shù)據(jù)值與平均數(shù)的距離在z=3個(gè)標(biāo)準(zhǔn)差之內(nèi)
  • 至少0.94或94%的數(shù)據(jù)值與平均數(shù)的距離在z=4個(gè)標(biāo)準(zhǔn)差之內(nèi)

2.2 經(jīng)驗(yàn)法則(3σ法則)

對(duì)于鐘型分布(即正態(tài)分布)的數(shù)據(jù),有

  • 大約68%的數(shù)據(jù)值與平均數(shù)在1個(gè)標(biāo)準(zhǔn)差之內(nèi)
  • 大約95%的數(shù)據(jù)值與平均數(shù)在2個(gè)標(biāo)準(zhǔn)差之內(nèi)
  • 幾乎所有的數(shù)據(jù)值與平均數(shù)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)

2.3?幸存者偏差

只看了經(jīng)過某種篩選而產(chǎn)生的結(jié)果,卻沒有意識(shí)到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息,在幸存者偏差這個(gè)問題中,我們觀察到的樣本是被篩選過的有偏樣本。

2.4?辛普森悖論

指某個(gè)條件下兩組數(shù)據(jù)單獨(dú)分析得到的結(jié)論,可能與將其綜合起來分析得到的結(jié)論截然相反。辛普森悖論在A/B試驗(yàn)中常作為高頻考點(diǎn)出現(xiàn),這時(shí)候?qū)嶒?yàn)結(jié)果值得我們細(xì)細(xì)斟酌,甚至需要重新分配流量再次測試。

2.5 異常值檢測

2.5.1 z-分?jǐn)?shù)法

z-分?jǐn)?shù)可以用來檢測異常值,經(jīng)驗(yàn)法則告訴我們,對(duì)于正態(tài)分布的數(shù)據(jù),幾乎所有的數(shù)據(jù)值與平均數(shù)的距離都在3個(gè)標(biāo)準(zhǔn)差之內(nèi),因此,在利用z-分?jǐn)?shù)法來檢測異常值時(shí),可以把z-分?jǐn)?shù)小于-3或者大于+3的所有數(shù)值都視作為異常值。

2.5.2 上下限法

確定異常值的另一種方法是上下限法,以第一四分位數(shù)與第三四分位數(shù)以及四分位數(shù)間距IQR為依據(jù)。首先我們計(jì)算數(shù)據(jù)集的上限和下限

  • 上限=
  • 下限=
  • IQR=

如果一個(gè)觀測值的數(shù)值大于上限或小于下限,則將其視作為為異常值。


三、數(shù)據(jù)分布

3.1 離散型概率分布

3.1.1 二項(xiàng)分布

指統(tǒng)計(jì)變量中只有性質(zhì)不同的兩項(xiàng)群體的概率分布。

二項(xiàng)代表事件往往只有兩種可能的結(jié)果,一種是成功,另一種是失敗。在n次獨(dú)立重復(fù)的實(shí)驗(yàn)中,假設(shè)每次實(shí)驗(yàn)A事件發(fā)生概率為p,X表示A事件發(fā)生的次數(shù).

存在公式:

性質(zhì):

1)由一系列相同的n個(gè)試驗(yàn)組成

2)每次試驗(yàn)都有兩種可能的結(jié)果,我們把其中一個(gè) 稱為成功,另一個(gè)稱為失敗

3)每次試驗(yàn)成功的概率都是相同的,用p來表示,失敗的概率也相同,用1-p表示

4)試驗(yàn)是相互獨(dú)立的

3.1.2 伯努利分布

  • 在概率論和統(tǒng)計(jì)學(xué)中,二項(xiàng)分布是n個(gè)獨(dú)立的成功/失敗試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。實(shí)際上,當(dāng)n=1時(shí),二項(xiàng)分布就是伯努利分布。
  • 3.1.3 泊松分布

    泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。在排隊(duì)論中使用比較廣泛,比如說,在一個(gè)醫(yī)院中,假設(shè)每個(gè)病人來看病的概率都是隨機(jī)且獨(dú)立的,那么這個(gè)醫(yī)院在一天內(nèi)接受的病人呈泊松分布。

    泊松分布的概率函數(shù)為:

    泊松分布的參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。k為預(yù)計(jì)發(fā)生的次數(shù)。

    3.1.4?超幾何分布

    超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了從有限N個(gè)物件(其中包含M個(gè)指定種類的物件)中抽出n個(gè)物件,成功抽出該指定種類的物件的次數(shù)(不放回)。

    3.2 連續(xù)型概率分布

    3.2.1 均勻分布

    均勻分布也叫矩形分布,它是對(duì)稱概率分布,在相同長度間隔的分布概率是等可能的。?

    假設(shè)x服從[a,b]上的均勻分布,則x的概率密度函數(shù)如下:

    3.2.2 正態(tài)分布

    變量的頻數(shù)或者頻率呈現(xiàn)出中間最多,兩端逐漸對(duì)稱減少的一種分布規(guī)律。對(duì)于正態(tài)分布而言,均值=中位數(shù)=眾數(shù)。

    3.2.3?指數(shù)概率分布

    可用于描述如打到某加油站的兩輛車時(shí)間間隔、高速路上兩起重大事故發(fā)生地之間的距離等隨機(jī)變量。

    定義:連續(xù)隨機(jī)變量X服從參數(shù)為λ的指數(shù)分布,其中λ>0為常數(shù),記為X~E(λ),它的概率密度為

    總結(jié)

    以上是生活随笔為你收集整理的数据分析统计知识—描述性统计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。