日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据之统计学基础(一)

發布時間:2025/3/15 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据之统计学基础(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 統計學

統計學可以分為:描述統計學與推斷統計學

描述統計學:使用特定的數字或圖表來體現數據的集中程度和離散程度。例:每次考試算的平均分,最高分,各個分段的人數分布等,也是屬于描述統計學的范圍。

推斷統計學:根據樣本數據推斷總體數據特征。例:產品質量檢查,一般采用抽檢,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。

2.均值、中位數、總數、極差、方差、標準差

對于一組數組,如果只容許使用一個數字去代表這組數據,那么這個數字應該如何選擇??——選擇數據的中心,即反映數據集中趨勢的統計量。

均值——算術平均數,描述平均水平。

中位數——將數據按大小排列后位于正中間的數描述,描述中等水平。

眾數——數據中出現最多的數,描述一般水平。

極差——最大值-最小值,簡單地描述數據的范圍大小

方差——在統計學上,更常用的是使用方差來描述數據的離散程度——數據離中心越遠越離散。其中,X?表示數據集中第i個數據的值,μ表示數據集的均值。

標準差——如果原數據的單位是m的話,那么方差的單位就是m?2,方差與原數據的單位是不一樣的,兩者沒有可比性。為了保持單位的一致性,我們引入一個新的統計量——標準差。

2.1?均值

2.2?中位數

顧名思義,中位數就是將數據按大小順序(從大到小或是從小到大都可以)排列后處于中間位置的數。若處于中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算術平均數。

2.3?眾數

眾數——數據中出現次數最多的數(所占比例最大的數)。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用于數值型數據,對于非數值型數據也同樣適用。

2.4?均值、中位數、眾數的優劣勢

?優點缺點
均值充分利用所有數據,適用性強容易受到極端值影響
中位數不受極端值影響缺乏敏感性
眾數當數據具有明顯的集中趨勢時,代表性好;不受極端值影響缺乏唯一性:可能有一個,可能有兩個,可能一個都沒有

?

2.5?方差

方差公式:,方差公式經過變形后可以簡化為。

方差分總體方差與樣本方差。總體方差:,樣本方差:

?

?

?2.6?標準差

標準差:,有效地避免了因單位平方而引起的度量問題。與方差一樣,標準差的值越大,表示數據越分散。

?

總結

以上是生活随笔為你收集整理的大数据之统计学基础(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。