日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

ML binning

發布時間:2024/3/24 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ML binning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、分箱

:數據分箱(也稱為離散分箱或者分段)是一種數據預處理的方法,用于減少次要觀察誤差的影響,是一種將多個連續值分為較少數量的分箱的方法。

1.1離散化:

,把無限空間中有限的個體映射到有限的空間中去,以此提高算法的時空效率。
通俗的說,離散化是在不改變數據相對大小的條件下,對數據進行相應的縮小。例如:
原數據:1,999,100000,15;處理后:1,3,4,2;
原數據:{100,200},{20,50000},{1,400};
處理后:{3,4},{2,6},{1,5};

1.2一般在建立分類模型時,需要對連續變量離散化,特征離散化后,模型會更穩定,降低了模型過擬合的風險。
具體來說:

  • 離散特征的增加和減少都很容易,易于模型的快速迭代
  • 稀疏向量內乘積運算速度快,
  • 離散化后特征對異常值數據有很強的魯棒性Robust:比如一個特征年齡>30是1,否則是0.如果特征沒有離散化,一個異常值數據‘年齡300歲’會給模型造成很大的干擾
  • 邏輯回歸屬于廣義的線性模型,表達能力受限;單變量離散化為N個后,每個變量有單獨的權重,相當于為模型引入了非線性,能夠提升模型表達能力,加大擬合
  • 離散化后可以進行特征交叉,由M+N個變量,進一步引入非線性,提升表達能力;

二、分箱方法:

2.1有監督分箱

  • 卡方分箱:自底向上的()
  • 最小熵分箱

2.2無監督分箱

  • 等距分箱:從最小值到最大值之間,均分為N等份,這樣,如果A,B為最小值最大值,則每個區間的長度為W=(B-A)/N,這里只考慮邊界,每個等分里面的實力數量可能不等
  • 等頻分箱:區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。

https://www.jianshu.com/p/0805f185ecdf

總結

以上是生活随笔為你收集整理的ML binning的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。