正态分布的峰度和偏度分别为_ML中的正态分布
機器學習的本質就是用概率分布來解釋世界上的所有事情,并用各種各樣的模型和算法來逼近目標的概率分布,而概率分布的核心就是正態分布。正態分布又叫高斯分布,是機器學習理論中最常見的分布。
正態分布流行的原因只有一個:簡單。
概率分布和正態分布
想要構建一個預測模型,那么需要:
- 了解目標變量的基本性質,手段是重復試驗
- 根據試驗結果確定,需要預測的變量是一個離散值還是一個連續值
- 為可能的備選值分配概率,比如概率為0的值就是理論上不會出現的值
簡而言之,重復大量的獨立試驗,分別記錄試驗結果,根據這些值作圖,得到的曲線(曲面)就是預測目標的概率分布曲線(曲面)。概率分布依賴于樣本的矩,比如平均值、標準差、偏度及峰度。本文所述正態分布,就是常見的概率分布模型之一。
正態分布的圖像,就是一條倒鐘形曲線,樣本的平均值、眾數及中位數是相等的,那么該變量就是正態分布的。
正態分布之所以簡單,在于其只依賴于兩個參數,即樣本的均值與方差,也就是一階矩和二階矩,這也讓近似正態分布的參數估計十分簡單精確。
為什么是正態分布
這個問題的數理根據是中心極限定理,該定律揭示了隨機現象的關鍵性質:平穩結果的穩定性,即當樣本量N趨于無窮時,N個抽樣樣本的的均值的分布趨于正態分布,該定理對總體分布不做要求,即無論何種分布都服從該定理。
同時,正態分布還十分便于進行假設檢驗,比如有名的
原則。同時,符合正態分布的數據還有一個好處,就是正態分布的組合(加減乘除)依然符合正態分布。正態分布的轉換
為了得到正態分布,有時候需要對樣本進行一系列轉換,下面給出幾種:
2.Box-cox變換
Box-cox變換是一種廣義冪變換方法,可以應對連續的響應變量不滿足正態分布的情況,其原理是引入一個參數,通過對該參數進行估計進而確定需要的數據變換形式,一般形式為:
式中
是引入的參數,該參數的確定是通過一系列樣本 來估計一個滿足該過程可以用scipy包中的stats.boxcox方法實現。
3.YEO-JOHNSON變換
改變換同樣是一種冪變換,具有冪變換的一般性質:縮小隨機變量的異方差性(heteroscedasticity)并放大其正態性(normality),從而達到將其向正態分布轉換的目的。該變換在形式上做出變化,使其能夠應用在0和負值情況下,是box-cox變換的拓展。修改過的變換形式為:
sklearn中提供了該方法。
sklearn.preprocessing.PowerTransformer(method=’yeo-johnson’, standardize=True, copy=True)
在機器學習問題中,盡量不要在不進行變換的情況下假設變量服從正態分布。
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的正态分布的峰度和偏度分别为_ML中的正态分布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓机更新系统会卡吗_【ios13更新】
- 下一篇: 结合html做界面_Spark UI界面