日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析入门(第一课)

發(fā)布時間:2024/10/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析入门(第一课) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

為了我在讀碩士的媳婦入門數(shù)據(jù)分析,我決定開一門從零開始數(shù)據(jù)分析的博文。即具有實用性又沒那么復(fù)雜的數(shù)學(xué)公式,拿來主義的博文。要學(xué)會數(shù)據(jù)分析,特別是需要掌握數(shù)據(jù)的特征,我們首先需要了解一些基本的概念。

第一:數(shù)據(jù)分析要解決什么問題?

根據(jù)數(shù)據(jù)的特征,來預(yù)測數(shù)據(jù)的走向?分析數(shù)據(jù)的趨勢或者離散程度?或者僅僅是對比幾組數(shù)據(jù)在某個指標(biāo)上的好壞?或者是對用戶進(jìn)行畫像?

在我媳婦兒的生物化學(xué)領(lǐng)域,一般來說就是對比兩個方法在測出來的數(shù)據(jù)的好壞,或者哪個方法測出來的數(shù)據(jù)更好。

要學(xué)會分析數(shù)據(jù),首先要明白有哪些指標(biāo)可以來度量數(shù)據(jù)的好壞。

概念:

均值:算數(shù)平均數(shù)

均值數(shù)據(jù)對數(shù)值型數(shù)據(jù)計算的,而且利用了全部數(shù)據(jù)信息,提取的信息最充分,當(dāng)數(shù)據(jù)呈對稱分布或近似對稱分布時,三個代表值相等或相近,此時應(yīng)選擇平均數(shù)。但受極端數(shù)據(jù)的影響,對于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差,此時應(yīng)考慮中位數(shù)或眾數(shù)。

中位數(shù):將數(shù)據(jù)按大小排列后位于正中間的數(shù)描述,描述中等水平

? ? ? 中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,直觀,不受極端數(shù)據(jù)的影響,但數(shù)據(jù)信息利用不夠充分,當(dāng)數(shù)據(jù)的分布偏斜較大時,使 用中位數(shù)也許不錯。主要適合作為順序數(shù)據(jù)的集中趨勢測度值。

眾數(shù):數(shù)據(jù)中出現(xiàn)最多的數(shù)

眾數(shù)一組數(shù)據(jù)分布的峰值,容易計算,但不是總是存在,眾數(shù)只有在數(shù)據(jù)量較多時才有意義,數(shù)據(jù)量較少時不宜使用。主要適合作為分類數(shù)據(jù)的集中趨勢測度值,應(yīng)用場合較少;

眾數(shù)、中位數(shù)和均值是分布集中趨勢的三個主要測度,眾數(shù)和中位數(shù)是從數(shù)據(jù)分布形狀及位置角度來考慮的,而均值是對所有數(shù)據(jù)計算后得到的。

方差

在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量。概率論中方差用來度量隨機變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。統(tǒng)計中的方差(樣本方差)是各個數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)

標(biāo)準(zhǔn)差:

那么問題來了,既然有了方差來描述變量與均值的偏離程度,那又搞出來個標(biāo)準(zhǔn)差干什么呢?

? ? 標(biāo)準(zhǔn)差是方差的算術(shù)平方根。因為方差與我們要處理的數(shù)據(jù)的量綱是不一致的(因為做了平方),雖然能很好的描述數(shù)據(jù)與均值的偏離程度,但是處理結(jié)果是不符合我們的直觀思維的。

協(xié)方差:

在概率論和統(tǒng)計學(xué)中,協(xié)方差用于衡量兩個變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個變量是相同的情況。

在概率論和統(tǒng)計學(xué)中,協(xié)方差用于衡量兩個變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個變量是相同的情況。

簡單地來說,協(xié)方差就是反映兩個變量 X 和 Y 的相互關(guān)系。這種相互關(guān)系大致分為三種:正相關(guān)、負(fù)相關(guān)、不相關(guān)。

什么是正相關(guān)呢?例如房屋面積(X)越大,房屋總價(Y)越高,則房屋面積與房屋總價是正相關(guān)的;

什么是負(fù)相關(guān)呢?例如一個學(xué)生打游戲的時間(X)越多,學(xué)習(xí)成績(Y)越差,則打游戲時間與學(xué)習(xí)成績是負(fù)相關(guān)的;

什么是不相關(guān)呢?例如一個人皮膚的黑白程度(X)與他的身體健康程度(Y)并無明顯關(guān)系,所以是不相關(guān)的

標(biāo)準(zhǔn)差和方差一般是用來描述一維數(shù)據(jù)的,但現(xiàn)實生活我們常常遇到含有多維數(shù)據(jù)的數(shù)據(jù)集,最簡單的大家上學(xué)時免不了要統(tǒng)計多個學(xué)科的考試成績。面對這樣的數(shù)據(jù)集,我們當(dāng)然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的帥氣程度跟他受女孩子歡迎程度是否存在一些聯(lián)系啊,嘿嘿~協(xié)方差就是這樣一種用來度量兩個隨機變量關(guān)系的統(tǒng)計量,我們可以仿照方差的定義:

來度量各個維度偏離其均值的程度,協(xié)方差可以這么來定義:

舉例:協(xié)方差的結(jié)果有什么意義呢?如果結(jié)果為正值,則說明兩者是正相關(guān)的(從協(xié)方差可以引出“相關(guān)系數(shù)”的定義),也就是說一個人越帥氣就越受女孩子歡迎,嘿嘿,那必須的~結(jié)果為負(fù)值就說明負(fù)相關(guān)的,越帥氣女孩子越討厭,可能嗎?如果為0,也是就是統(tǒng)計上說的“相互獨立”。

男生的帥氣程度Xi :1.1 ,1.9 ,3

受女生的歡迎程度:Yi :5.0 ,10.4 ,14.6

E(X) = (1.1+1.9+3)/3=2

E(Y) = (5.0+10.4+14.6)/3=10

E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02

Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02

當(dāng) Cov(X,Y) > 0 時,X 與 Y 正相關(guān);

當(dāng) Cov(X,Y) < 0 時,X 與 Y 負(fù)相關(guān);

當(dāng) Cov(X,Y) = 0 時,X 與 Y 不相關(guān);

3.02>0說明他們是正相關(guān)的。

協(xié)方差數(shù)值大小是否代表了相關(guān)程度呢?

也就是說如果協(xié)方差為 100 是否一定比協(xié)方差為 10 的正相關(guān)性強呢?并不是協(xié)方差越大,正相關(guān)程度越高

出現(xiàn)這種情況的原因是兩種情況數(shù)值變化的幅值不同(或者量綱不同)。計算協(xié)方差的時候我們并沒有把不同變量幅值差異性考慮進(jìn)來,在比較協(xié)方差的時候也就沒有一個統(tǒng)一的量綱標(biāo)準(zhǔn)。所以,為了消除這一影響,為了準(zhǔn)確得到變量之間的相似程度,我們需要把協(xié)方差除以各自變量的標(biāo)準(zhǔn)差。這樣就得到了相關(guān)系數(shù)的表達(dá)式:

?

分別計算上面例子X、Y的標(biāo)準(zhǔn)差:

D(X)=E(X^2)-E^2(X)=(1.1^2+1.9^2+3^2)/3 - 4=4.60-4=0.6 σx=0.77

D(Y)=E(Y^2)-E^2(Y)=(5^2+10.4^2+14.6^2)/3-100=15.44 σy=3.93

則X,Y的相關(guān)系數(shù):

r(X,Y)=Cov(X,Y)/(σxσy)=3.02/(0.77×3.93) = 0.9979

表明這組數(shù)據(jù)X,Y之間相關(guān)性很好!

為什么除以各自變量的標(biāo)準(zhǔn)差就能消除幅值影響呢?

這是因為標(biāo)準(zhǔn)差本身反映了變量的幅值變化程度,除以標(biāo)準(zhǔn)差正好能起到抵消的作用,讓協(xié)方差標(biāo)準(zhǔn)化。這樣,相關(guān)系數(shù)的范圍就被歸一化到 [-1,1] 之間了。

協(xié)方差矩陣

? ? ? 衡量更多變量之間相關(guān)性,每個變量和其它每一個變量求協(xié)方差組成一個矩陣就是協(xié)方差矩陣。

?
 

  

?

?

?

?

總結(jié)

以上是生活随笔為你收集整理的数据分析入门(第一课)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。