ML binning
生活随笔
收集整理的這篇文章主要介紹了
ML binning
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、分箱
:數據分箱(也稱為離散分箱或者分段)是一種數據預處理的方法,用于減少次要觀察誤差的影響,是一種將多個連續值分為較少數量的分箱的方法。
1.1離散化:
,把無限空間中有限的個體映射到有限的空間中去,以此提高算法的時空效率。
通俗的說,離散化是在不改變數據相對大小的條件下,對數據進行相應的縮小。例如:
原數據:1,999,100000,15;處理后:1,3,4,2;
原數據:{100,200},{20,50000},{1,400};
處理后:{3,4},{2,6},{1,5};
1.2一般在建立分類模型時,需要對連續變量離散化,特征離散化后,模型會更穩定,降低了模型過擬合的風險。
具體來說:
- 離散特征的增加和減少都很容易,易于模型的快速迭代
- 稀疏向量內乘積運算速度快,
- 離散化后特征對異常值數據有很強的魯棒性Robust:比如一個特征年齡>30是1,否則是0.如果特征沒有離散化,一個異常值數據‘年齡300歲’會給模型造成很大的干擾
- 邏輯回歸屬于廣義的線性模型,表達能力受限;單變量離散化為N個后,每個變量有單獨的權重,相當于為模型引入了非線性,能夠提升模型表達能力,加大擬合
- 離散化后可以進行特征交叉,由M+N個變量,進一步引入非線性,提升表達能力;
二、分箱方法:
2.1有監督分箱
- 卡方分箱:自底向上的()
- 最小熵分箱
2.2無監督分箱
- 等距分箱:從最小值到最大值之間,均分為N等份,這樣,如果A,B為最小值最大值,則每個區間的長度為W=(B-A)/N,這里只考慮邊界,每個等分里面的實力數量可能不等
- 等頻分箱:區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。
https://www.jianshu.com/p/0805f185ecdf
總結
以上是生活随笔為你收集整理的ML binning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本生成:自动摘要评价指标 Rouge
- 下一篇: MPS——首款 消费类 PD 协议芯片: