方差的意义
方差是為了觀察樣本的離散程度。舉個例子:樣本A是10、10、10、10、10;樣本B是-10、0、10、20、30。A和B的均值都是10,但顯然B的樣本點離散程度更大一些。如何來用統計量描述這種離散程度呢?很直觀可以想到:那就把每一個樣本點與均值點的“距離”統計在一起看一看就清楚了。最先想到的距離就是直接做差(暫時僅討論一維情況),但會有正負號相抵消的問題——試想上邊樣本A和B,每個樣本點與均值做差并對差值求和后都是0,并無法區分分散程度。鑒于此,很直接想到一個改良版本,即對差的絕對值求和,即統計量“平均差”。但平均差仍有一些問題,最關鍵的是沒有過于偏離的點以足夠多的“關注”。舉例子:給定樣本C為-20、10、10、10、40。將樣本C與樣本B比較,二者均值相等、平均差相等,但直觀感受上來講,樣本C離散更嚴重些(想像成分數的話就是C的發揮更加不穩定),因為有兩個明顯“跑到遠處去”的點。所以為了給明顯跑偏的點以更大的“關注”,就使用二次函數加大這個懲罰值,于是方差便誕生了。當然,為了與樣本點及其均值在量綱上可比,通常會再開方得到標準差。此外,方差有一些額外的優勢,比如二次函數天然可解決正負號相抵的問題、可以在高維數據下計算距離、計算方便等等。另外從統計意義上講,可以證明使方差最小化能夠找到概率最高的無偏估計。綜上,方差成為了描述樣本離散程度的最常用統計量。
方差越大,說明數據離散程度越大,其所包含的信息越多
總結
- 上一篇: 3.2 电信数据清洗
- 下一篇: CentOS8离线安装mono