當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学、数据分析、机器学习常用数据特征汇总

發布時間：2023/12/15 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学、数据分析、机器学习常用数据特征汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.bias：偏差，反映的是數據和真實值之間的差異，體現數據的準確度。

2.variance:方差，反映的是數據與平均值之間的變異，體現數據的精確度。

3.error的意思與bias接近。

4.std dev（standard Deviation）:標準差與標準偏差
標準差公式：
公式（1）

標準偏差公式：
公式（2）

標準偏差是從樣本估計中來的（卡方分布），標準偏差是標準差的無偏估計。

在實際中，公式（2）用的更多。因為當樣本容量比較小的時候，公式（1）會過小的估計實際標準差；如果樣本容量過大，公式（1）和公式（2）很接近。這時候公式（1）叫做漸近無偏估計，當然還是比不上公式（2）的無偏估計。

如果我們想求一批數據的標準差，那么自然就用公式（1）；如果我們是利用現在的樣本估計真實的分布，那就用公式（2）。

5.MSE:Mean Squared Error(均方誤差)——真實值與估計值之間的偏差平方和的平均值，用來評估模型效果。

6.RMSE:Root Mean Squared Error(均方根誤差)–MSE的方根。

7.TSS： Total Sum of Squares(總離差平方和)——因變量的方差。

8.RSS:Residual Sum of Squares(殘差平方和)–由誤差導致的真實值與估計值之間的偏差平方和。

9.ESS：Explained Sum of Squares(回歸平方和)——被模型解釋的方差。

10.R2:Coefficient of Determination(決定系數)——因變量方差中可由自由變量解釋的比例，是模型解釋力的指標。

11.RSE：Residual Standard Error(殘差的標準誤差)——描述目標和真實回歸線之間的平均偏移量，用來估計殘差的標準差。
n-p-1為自由度，p為特征數

12.Correlation:也就是皮爾遜相關系數——用來檢測自變量X與因變量Y之間的線性關系有多強。

13.四分位數極差（IQR: Interquartile range）

四分位數也稱四分位點，是指在統計學中把所有數值從小到大排列并分成四等份，多用于箱線圖的繪制。

第一個四分位數就是通常所說的四分位數，稱為下四分位數；第二個四分位數就是中位數；第三個四分位數稱為上四分位數，分別用Q1、Q2、Q3表示。

第一四分位數（Q1），又稱“較小四分位數”，等于該樣本中所以數值由小到大排列后第25%的數字。
第二四分位數（Q2），又稱“中位數”，等于該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數（Q3），又稱“較大四分位數”，等于該樣本中所有數值由小到大排列后第75%的數字。

第三四分位數與第一四分位數的差距又稱四分位距（四分位數極差）IQR=Q3-Q1

14.絕對平均偏差（AAD: Absolute average deviation）、中位數絕對偏差（MAD：Median absolute deviation）

數據統計又稱匯總統計，用單個數或數的小集合來捕捉大的數據集的各種屬性特征。通常需要中心趨勢和離散程度特征。

中心趨勢度量包括均值（mean）、中位數（median）、眾數（model）和中列數（midrange）。

數據離散程度度量包括四分位數（quartiles）、四分位數極差（Inter Quartiles Range,IQR）和方差（Variance）。

均值、方差、標準差等數字特征適用于來自正態分布的數據。如果數據的分布嚴重偏向某一邊，或者極端值較多，這些數字特征就不適用了。在這種情況下，可以計算中位數、分位數、極差等數據特征。

均值的計算容易受到離群數據或者極端數據的影響，在計算方差時，也用到了均值，而均值容易被離群值扭曲，所以方差對離群值很敏感。事實上，方差比均值對極端數據更加敏感。因為對于每個點xi,首先要計算再平方。在平方的過程中，極端數據的影響會進一步放大。為降低極端數據的影響，更加穩健的值集散步估計方法是：AAD、MAD、IQR。

（1）絕對平均偏差（AAD）
（2）中位數絕對偏差（MAD）
（3）四分位極差（IQR）

總結

以上是生活随笔為你收集整理的统计学、数据分析、机器学习常用数据特征汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：查看cuda版本(如何查看cuda的版本
下一篇： 403禁止访问:访问被拒绝如何解决_死链

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

统计学、数据分析、机器学习常用数据特征汇总

總結