日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学、数据分析、机器学习常用数据特征汇总

發布時間:2023/12/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 统计学、数据分析、机器学习常用数据特征汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.bias:偏差,反映的是數據和真實值之間的差異,體現數據的準確度。

2.variance:方差,反映的是數據與平均值之間的變異,體現數據的精確度。

3.error的意思與bias接近。

4.std dev(standard Deviation):標準差與標準偏差
標準差公式:
公式(1)

標準偏差公式:
公式(2)

標準偏差是從樣本估計中來的(卡方分布),標準偏差是標準差的無偏估計。

在實際中,公式(2)用的更多。因為當樣本容量比較小的時候,公式(1)會過小的估計實際標準差;如果樣本容量過大,公式(1)和公式(2)很接近。這時候公式(1)叫做漸近無偏估計,當然還是比不上公式(2)的無偏估計。

如果我們想求一批數據的標準差,那么自然就用公式(1);如果我們是利用現在的樣本估計真實的分布,那就用公式(2)。

5.MSE:Mean Squared Error(均方誤差)——真實值與估計值之間的偏差平方和的平均值,用來評估模型效果。

6.RMSE:Root Mean Squared Error(均方根誤差)–MSE的方根

7.TSS: Total Sum of Squares(總離差平方和)——因變量的方差

8.RSS:Residual Sum of Squares(殘差平方和)–由誤差導致的真實值與估計值之間的偏差平方和

9.ESS:Explained Sum of Squares(回歸平方和)——被模型解釋的方差

10.R2:Coefficient of Determination(決定系數)——因變量方差中可由自由變量解釋的比例,是模型解釋力的指標

11.RSE:Residual Standard Error(殘差的標準誤差)——描述目標和真實回歸線之間的平均偏移量,用來估計殘差的標準差
n-p-1為自由度,p為特征數

12.Correlation:也就是皮爾遜相關系數——用來檢測自變量X與因變量Y之間的線性關系有多強

13.四分位數極差(IQR: Interquartile range)

四分位數也稱四分位點,是指在統計學中把所有數值從小到大排列并分成四等份,多用于箱線圖的繪制。

第一個四分位數就是通常所說的四分位數,稱為下四分位數;第二個四分位數就是中位數;第三個四分位數稱為上四分位數,分別用Q1、Q2、Q3表示。

第一四分位數(Q1),又稱“較小四分位數”,等于該樣本中所以數值由小到大排列后第25%的數字。
第二四分位數(Q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第
50%的數字。
第三四分位數(Q3),又稱“較大四分位數”,等于該樣本中所有數值由小到大排列后第
75%的數字。

第三四分位數與第一四分位數的差距又稱四分位距(四分位數極差)IQR=Q3-Q1

14.絕對平均偏差(AAD: Absolute average deviation)、中位數絕對偏差(MAD:Median absolute deviation)

數據統計又稱匯總統計,用單個數或數的小集合來捕捉大的數據集的各種屬性特征。通常需要中心趨勢離散程度特征。

中心趨勢度量包括均值(mean)、中位數(median)、眾數(model)和中列數(midrange)。

數據離散程度度量包括四分位數(quartiles)、四分位數極差(Inter Quartiles Range,IQR)和方差(Variance)。

均值、方差、標準差等數字特征適用于來自正態分布的數據。如果數據的分布嚴重偏向某一邊,或者極端值較多,這些數字特征就不適用了。在這種情況下,可以計算中位數、分位數、極差等數據特征。

均值的計算容易受到離群數據或者極端數據的影響,在計算方差時,也用到了均值,而均值容易被離群值扭曲,所以方差對離群值很敏感。事實上,方差比均值對極端數據更加敏感。因為對于每個點xi,首先要計算再平方。在平方的過程中,極端數據的影響會進一步放大。為降低極端數據的影響,更加穩健的值集散步估計方法是:AAD、MAD、IQR

(1)絕對平均偏差(AAD)
(2)中位數絕對偏差(MAD)
(3)四分位極差(IQR)

總結

以上是生活随笔為你收集整理的统计学、数据分析、机器学习常用数据特征汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。