當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ML binning

發布時間：2024/3/24 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 ML binning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、分箱

：數據分箱（也稱為離散分箱或者分段）是一種數據預處理的方法，用于減少次要觀察誤差的影響，是一種將多個連續值分為較少數量的分箱的方法。

1.1離散化：

，把無限空間中有限的個體映射到有限的空間中去，以此提高算法的時空效率。
通俗的說，離散化是在不改變數據相對大小的條件下，對數據進行相應的縮小。例如：
原數據：1,999,100000,15；處理后：1,3,4,2；
原數據：{100,200}，{20,50000}，{1,400}；
處理后：{3,4}，{2,6}，{1,5}；

1.2一般在建立分類模型時，需要對連續變量離散化，特征離散化后，模型會更穩定，降低了模型過擬合的風險。
具體來說：

離散特征的增加和減少都很容易，易于模型的快速迭代
稀疏向量內乘積運算速度快，
離散化后特征對異常值數據有很強的魯棒性Robust：比如一個特征年齡>30是1，否則是0.如果特征沒有離散化，一個異常值數據‘年齡300歲’會給模型造成很大的干擾
邏輯回歸屬于廣義的線性模型，表達能力受限；單變量離散化為N個后，每個變量有單獨的權重，相當于為模型引入了非線性，能夠提升模型表達能力，加大擬合
離散化后可以進行特征交叉，由M+N個變量，進一步引入非線性，提升表達能力；

二、分箱方法：

2.1有監督分箱

卡方分箱：自底向上的（）
最小熵分箱

2.2無監督分箱

等距分箱：從最小值到最大值之間，均分為N等份，這樣，如果A，B為最小值最大值，則每個區間的長度為W=（B-A）/N，這里只考慮邊界，每個等分里面的實力數量可能不等
等頻分箱：區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 ,每個區間應該包含大約10%的實例。

https://www.jianshu.com/p/0805f185ecdf

總結

以上是生活随笔為你收集整理的ML binning的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

ml
Binning

上一篇：文本生成：自动摘要评价指标 Rouge
下一篇： MPS——首款消费类 PD 协议芯片：