日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

二值化_处理连续型特征:二值化与分段

發布時間:2024/9/3 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 二值化_处理连续型特征:二值化与分段 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

preprocessing.Binarizer

? ? ? ?根據閾值將數據二值化(將特征值設置為0或1),用于處理連續型變量。大于閾值的值映射為1,而小于或等于閾值的值映射為0。默認閾值為0時,特征中所有的正值都映射到1。

? ? ? 二值化是對文本計數數據的常見操作,分析人員可以決定僅考慮某種現象的存在與否。它還可以用作考慮布爾隨機變量的估計器的預處理步驟(例如,使用貝葉斯設置中的伯努利分布建模)。

#將年齡二值化
data_2?=?data.copy()
from?sklearn.preprocessing?import?Binarizer
X?=?data_2.iloc[:,0].values.reshape(-1,1)?#類為特征專用,所以不能使用一維數組
transformer?=?Binarizer(threshold=30).fit_transform(X)
transformer

preprocessing.KBinsDiscretizer

? ? ? ?這是將連續型變量劃分為分類變量的類,能夠將連續型變量排序后按順序分箱后編碼

? ? ? ?總共包含三個重要參數:

  • n_bins:每個特征中分箱的個數,默認5,一次會被運用到所有導入的特征。

  • encode:

編碼的方式,默認“onehot”

"onehot":做啞變量,之后返回一個稀疏矩陣,每一列是一個特征中的一個類別,含有該類別的樣本表示為1,不含的表示為0

“ordinal”:每個特征的每個箱都被編碼為一個整數,返回每一列是一個特征,每個特征下含

有不同整數編碼的箱的矩陣

"onehot-dense":做啞變量,之后返回一個密集數組。

  • strategy:

    用來定義箱寬的方式,默認"quantile"

    “quantile":表示等位分箱,即每個特征中的每個箱內的樣本數量都相同;

"uniform":表示等寬分箱,即每個特征中的每個箱的最大值之間的差為

(特征.max() - 特征.min())/(n_bins);

"kmeans":表示按聚類分箱,每個箱中的值到最近的一維k均值聚類的簇心得距離都相同;from?sklearn.preprocessing?

歡迎轉發分享、點贊評論

總結

以上是生活随笔為你收集整理的二值化_处理连续型特征:二值化与分段的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。