统计学、数据分析、机器学习常用数据特征汇总
1.bias:偏差,反映的是數據和真實值之間的差異,體現數據的準確度。
2.variance:方差,反映的是數據與平均值之間的變異,體現數據的精確度。
3.error的意思與bias接近。
4.std dev(standard Deviation):標準差與標準偏差
標準差公式:
公式(1)
標準偏差公式:
公式(2)
標準偏差是從樣本估計中來的(卡方分布),標準偏差是標準差的無偏估計。
在實際中,公式(2)用的更多。因為當樣本容量比較小的時候,公式(1)會過小的估計實際標準差;如果樣本容量過大,公式(1)和公式(2)很接近。這時候公式(1)叫做漸近無偏估計,當然還是比不上公式(2)的無偏估計。
如果我們想求一批數據的標準差,那么自然就用公式(1);如果我們是利用現在的樣本估計真實的分布,那就用公式(2)。
5.MSE:Mean Squared Error(均方誤差)——真實值與估計值之間的偏差平方和的平均值,用來評估模型效果。
6.RMSE:Root Mean Squared Error(均方根誤差)–MSE的方根。
7.TSS: Total Sum of Squares(總離差平方和)——因變量的方差。
8.RSS:Residual Sum of Squares(殘差平方和)–由誤差導致的真實值與估計值之間的偏差平方和。
9.ESS:Explained Sum of Squares(回歸平方和)——被模型解釋的方差。
10.R2:Coefficient of Determination(決定系數)——因變量方差中可由自由變量解釋的比例,是模型解釋力的指標。
11.RSE:Residual Standard Error(殘差的標準誤差)——描述目標和真實回歸線之間的平均偏移量,用來估計殘差的標準差。
n-p-1為自由度,p為特征數
12.Correlation:也就是皮爾遜相關系數——用來檢測自變量X與因變量Y之間的線性關系有多強。
13.四分位數極差(IQR: Interquartile range)
四分位數也稱四分位點,是指在統計學中把所有數值從小到大排列并分成四等份,多用于箱線圖的繪制。
第一個四分位數就是通常所說的四分位數,稱為下四分位數;第二個四分位數就是中位數;第三個四分位數稱為上四分位數,分別用Q1、Q2、Q3表示。
第一四分位數(Q1),又稱“較小四分位數”,等于該樣本中所以數值由小到大排列后第25%的數字。
第二四分位數(Q2),又稱“中位數”,等于該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數(Q3),又稱“較大四分位數”,等于該樣本中所有數值由小到大排列后第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距(四分位數極差)IQR=Q3-Q1
14.絕對平均偏差(AAD: Absolute average deviation)、中位數絕對偏差(MAD:Median absolute deviation)
數據統計又稱匯總統計,用單個數或數的小集合來捕捉大的數據集的各種屬性特征。通常需要中心趨勢和離散程度特征。
中心趨勢度量包括均值(mean)、中位數(median)、眾數(model)和中列數(midrange)。
數據離散程度度量包括四分位數(quartiles)、四分位數極差(Inter Quartiles Range,IQR)和方差(Variance)。
均值、方差、標準差等數字特征適用于來自正態分布的數據。如果數據的分布嚴重偏向某一邊,或者極端值較多,這些數字特征就不適用了。在這種情況下,可以計算中位數、分位數、極差等數據特征。
均值的計算容易受到離群數據或者極端數據的影響,在計算方差時,也用到了均值,而均值容易被離群值扭曲,所以方差對離群值很敏感。事實上,方差比均值對極端數據更加敏感。因為對于每個點xi,首先要計算再平方。在平方的過程中,極端數據的影響會進一步放大。為降低極端數據的影響,更加穩健的值集散步估計方法是:AAD、MAD、IQR。
(1)絕對平均偏差(AAD)
(2)中位數絕對偏差(MAD)
(3)四分位極差(IQR)
總結
以上是生活随笔為你收集整理的统计学、数据分析、机器学习常用数据特征汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查看cuda版本(如何查看cuda的版本
- 下一篇: 403禁止访问:访问被拒绝如何解决_死链