日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析该分析什么?

發(fā)布時間:2023/12/19 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析该分析什么? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

總第56篇

很多時候我們走的走的就會忘記當(dāng)初為什么而出發(fā)。

我們有的時候在拿到數(shù)據(jù)以后不知道該怎么進行分析,該去分析什么,其實這些在我們以前的統(tǒng)計學(xué)中都學(xué)過。

不管是用Python還是R,其實和用Excel一樣,只不過現(xiàn)在之所以用Python、R是因為大數(shù)據(jù)時代么,數(shù)據(jù)太多,Excel的處理能力跟不上,但是這些都只是一個工具而已,核心還是圍繞統(tǒng)計學(xué)不變的。

今天就來聊聊我們該從哪些方向去分析(描述)數(shù)據(jù)。

01|總規(guī)模度量:

總量指標(biāo)又稱統(tǒng)計絕對數(shù),是反映某一數(shù)據(jù)的整體規(guī)模大小,總量多少的指標(biāo)。他是對原始數(shù)據(jù)經(jīng)管分組和匯總以后得到的各項總計數(shù)字,是統(tǒng)計整理階段的直接成功。

比如泰坦尼克號數(shù)據(jù)中總共有891條乘客數(shù)據(jù),其中有342是幸存者。


?

02|相對度量:

相對指標(biāo)是說明現(xiàn)象之間數(shù)量對比關(guān)系的指標(biāo),由兩個有聯(lián)系的指標(biāo)數(shù)值對比而求得,其結(jié)果表現(xiàn)為相對數(shù),相對數(shù)的重要特點就是把兩個具體的數(shù)值概括為一個抽象的數(shù).

?

比如:泰坦尼克號數(shù)據(jù)中我們可以把存者數(shù)據(jù)和所有乘客數(shù)據(jù)的相比概括為為幸存率這么一個數(shù)。

?

相對數(shù)有有單位和無單位兩種表現(xiàn)形式,在相對指標(biāo)中,大多數(shù)都是以無單位的形式表示的,無單位是一種抽象化的數(shù)值,常以系數(shù)、倍數(shù)、百分?jǐn)?shù)等表示;而有單位主要是用來表現(xiàn)強度相對指標(biāo)的數(shù)值,比如人口密度:“人/平方公里”。


03|集中趨勢的度量:

?

集中趨勢是通過指標(biāo)反映某一現(xiàn)象在一定時間段內(nèi)所達到的一般水平。用平均指標(biāo)來表示。平均指標(biāo)分為數(shù)值平均和位置平均。

?

比如:泰坦尼克號數(shù)據(jù)中平均年齡和平均票價。

?

1、數(shù)值平均是統(tǒng)計數(shù)列中所有變量值平均的結(jié)果。有普通平均數(shù)和加權(quán)平均數(shù)兩種。

2、位置平均時基于某種特殊位置上或者是普遍出現(xiàn)的標(biāo)志值作為整體一般水平的代表值。有眾數(shù)、中位數(shù)兩種。

?

  • 眾數(shù)是被研究總體中出現(xiàn)次數(shù)最多的變量值,他是總體中最普遍的值,因此可以用來代表一般水平。如果數(shù)據(jù)可以分為多組,則為每組找出一個眾數(shù)。注意:眾數(shù)只有在總體內(nèi)單位充分多時才有意義。

  • 中位數(shù)是將總體中各單位標(biāo)志值按大小順序排列,處于中間位置的變量值就是中位數(shù)。因為處于中間位置,有一半變量值大于該值,一半小于該值,所以可以用這樣的中等水平來表示整體的一般水平。

?


04|離散程度的度量:

?

變異指標(biāo)是用來表示總體分布的變異情況和離散程度的指標(biāo),通過變異程度也可以看出平均值指標(biāo)的代表性程度,如果離散程度小,說明大部分?jǐn)?shù)據(jù)都是挨著的,則平均值可以很好的反映整體情況的一般水平,反之相反。

?

全距(又稱極差)、方差、標(biāo)準(zhǔn)差等幾個指標(biāo)是用來衡量數(shù)值的分散性和變異性。

?

1、全距(極差):平均數(shù)讓我們有辦法確定一批數(shù)據(jù)的中心,但是無法知道數(shù)據(jù)的變動情況,所以引入全距,全距的計算方法是用數(shù)據(jù)集中最大數(shù)(上界)減去數(shù)據(jù)集中最小數(shù)(下屆)。

全距存在的問題:

  • 容易受異常值影響。

  • 全距只表示了數(shù)據(jù)的寬度,但是沒有描述清楚數(shù)據(jù)上下界之間的分布形態(tài)。

?

2、對于第一種問題我們引入四分位距的概念。四分位數(shù)將一些數(shù)值從小到大排列,然后一分為四,最小的四分位數(shù)為下四分位數(shù),最大的四分位數(shù)為上四分位數(shù),中間的四分位數(shù)為中位數(shù)。

?

3、對于問題2我們引入了方差和標(biāo)準(zhǔn)差兩個概念來度量數(shù)據(jù)的分散性。

?

  • 方差是每個數(shù)值與均值距離的平方的平均值,方差越小說明各數(shù)值與均值之間的差距越小,數(shù)值越穩(wěn)定。

  • 標(biāo)準(zhǔn)差是方差的開方。表示數(shù)值與均值距離的平均值。


05|偏態(tài)與峰度的度量:

?

1、偏度是用來衡量統(tǒng)計分布的不對稱程度或偏斜程度的指標(biāo),值越大,偏斜成度越大;值越小,偏斜成度越小。

2、峰度又稱峰態(tài)系數(shù)。表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。直觀看來,峰度反映了峰部的尖度。值越大,越尖。


06|相關(guān)性度量:

上面提到的幾個維度是對數(shù)據(jù)整體的情況進行描述,但是我們有的時候想看一下數(shù)據(jù)整體內(nèi)的變量之間存在什么關(guān)系,一個變化時會引起另一個怎么變化,我們把用來反映這種關(guān)系的指標(biāo)叫做相關(guān)系數(shù)。

(相關(guān)系數(shù)計算公式)

關(guān)于相關(guān)系數(shù)需要注意幾點:

  • 相關(guān)系數(shù)r的范圍為:[-1,1]。

  • r的絕對值越大,表示相關(guān)性越強。

  • r的正負(fù)代表相關(guān)性方向,正代表正相關(guān),負(fù)代表負(fù)相關(guān)。

總結(jié)

以上是生活随笔為你收集整理的数据分析该分析什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。