日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

【Python】特征工程:数值特征的缩放与编码

發布時間:2025/3/12 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Python】特征工程:数值特征的缩放与编码 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數值特征是結構化競賽中重要的特征,也是需要處理的特征。一般而言數值特征的操作,包括如下幾個方面:

  • 離群點處理

  • 缺失值填充

  • 縮放處理

  • 編碼處理

缺失值填充

如果使用非樹模型,則需要考慮對數值特征進行填充。缺失值填充的基礎方法包括:

  • 使用統計值填充(均值/中位數/常數)

  • 最近鄰樣本填充(行維度)

  • 基于模型的填充

  • 縮放處理

    數值特征在歸一化后直接加到深度模型中,直接對原始特征做歸一化,或者通過BN層來做歸一化。

    RankGuass

    將數值進行排序,然后將轉換到[-1, 1]范圍內,然后使用逆誤差函數進行轉換。

    詳細案例見:https://zhuanlan.zhihu.com/p/330333894

    標準化

    最大最小縮放

    最大絕對值縮放

    魯邦縮放

    計算數值具體的分位點Q1和Q3,

    對數轉換

    分位點轉換

    計算數值分布的分位點,將分布轉為均勻分布或正態分布。

    冪變換

    將數值轉換為更加偏向正態分布的形態

    • Box-Cox 變換

    • Yeo-Johnson 變換

    編碼處理

    原始特征

    用原始的數值作為特征,或者在數值上面做一些計算。

    二值化/分箱處理

    對數值按照大小進行劃分,可以直接使用pd.cut實現。

    Rank值

    統計數值具體大小次序。

    離散嵌入

    利用分點可以將數值進行離散化,然后作為ID類特征加到模型中,正常參與模型訓練。離散化有兩個好處:一是引入非線性,二是可以過濾一些異常值。

    域嵌入

    將一個域內的數值型特征共享一個field embedding,可以理解為使用一個向量來轉換。

    樹編碼

    通過樹模型節點的劃分對不同特征值劃分到不同的節點,從而對其進行離散化。

    往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

    本站qq群851320808,加入微信群請掃碼:

    總結

    以上是生活随笔為你收集整理的【Python】特征工程:数值特征的缩放与编码的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。