日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据平台】sklearn库特征工程之数据预处理

發布時間:2025/4/16 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据平台】sklearn库特征工程之数据预处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、背景:

通過特征提取,我們能得到未經處理的特征,這時的特征可能有以下問題:

  • 不屬于同一量綱:即特征的規格不一樣,不能夠放在一起比較。無量綱化可以解決這一問題。
  • 信息冗余:對于某些定量特征,其包含的有效信息為區間劃分,例如學習成績,假若只關心“及格”或不“及格”,那么需要將定量的考分,轉換成“1”和“0”表示及格和未及格。二值化可以解決這一問題。
  • 定性特征不能直接使用:某些機器學習算法和模型只能接受定量特征的輸入,那么需要將定性特征轉換為定量特征。最簡單的方式是為每一種定性值指定一個定量值,但是這種方式過于靈活,增加了調參的工作。通常使用啞編碼的方式將定性特征轉換為定量特征:假設有N種定性值,則將這一個特征擴展為N種特征,當原始特征值為第i種定性值時,第i個擴展特征賦值為1,其他擴展特征賦值為0。啞編碼的方式相比直接指定的方式,不用增加調參的工作,對于線性模型來說,使用啞編碼后的特征可達到非線性的效果。
  • 存在缺失值:缺失值需要補充。
  • 信息利用率低:不同的機器學習算法和模型對數據中信息的利用是不同的,之前提到在線性模型中,使用對定性特征啞編碼可以達到非線性的效果。類似地,對定量變量多項式化,或者進行其他的轉換,都能達到非線性的效果。

  我們使用sklearn中的preproccessing庫來進行數據預處理,可以覆蓋以上問題的解決方案。


2、代碼:

# -*- coding: utf-8 -*- ''' Created on 2017年12月15日 @author: Jason.F @summary: sklearn特征工程 '''from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import Normalizer from sklearn.preprocessing import Binarizer from sklearn.preprocessing import OneHotEncoder from numpy import vstack, array, nan from sklearn.preprocessing import Imputer from sklearn.preprocessing import PolynomialFeatures #導入IRIS數據集 iris = load_iris() #特征矩陣 iris.data #目標向量 iris.target#數據預處理 #1:無量綱化,使不同規格的數據轉換到同一規格 #1.1:標準化,標準化的前提是特征值服從正態分布,標準化后,其轉換成標準正態分布。 StandardScaler().fit_transform(iris.data) #1.2:區間縮放法,利用了邊界值信息,將特征的取值區間縮放到某個特點的范圍,如縮放到[0, 1]區間 MinMaxScaler().fit_transform(iris.data) #1.3:歸一化:依照特征矩陣的行處理數據,其目的在于樣本向量在點乘運算或其他核函數計算相似性時,擁有統一的標準 #歸一化,返回值為歸一化后的數據 Normalizer().fit_transform(iris.data)#2:對定量特征二值化,定量特征二值化的核心在于設定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。 Binarizer(threshold=3).fit_transform(iris.data)#3:對定性特征啞編碼,使用preproccessing庫的OneHotEncoder類對數據進行啞編碼 OneHotEncoder().fit_transform(iris.target.reshape((-1,1)))#4:缺失值計算,使用preproccessing庫的Imputer類對數據進行缺失值計算 #缺失值計算,返回值為計算缺失值后的數據 #參數missing_value為缺失值的表示形式,默認為NaN #參數strategy為缺失值填充方式,默認為mean(均值) Imputer().fit_transform(vstack((array([nan, nan, nan, nan]), iris.data)))#5:數據變換,常見的數據變換有基于多項式的、基于指數函數的、基于對數函數的 #多項式轉換 #參數degree為度,默認值為2 pndata=PolynomialFeatures().fit_transform(iris.data) print (pndata[0:2])

3、標準化和歸一化區別

標準化是依照特征矩陣的列處理數據,其通過求z-score的方法,將樣本的特征值轉換到同一量綱下,公式如下:

歸一化是依照特征矩陣的行處理數據,其目的在于樣本向量在點乘運算或其他核函數計算相似性時,擁有統一的標準,也就是說都轉化為“單位向量”。規則為l2的歸一化公式如下:

4、總結:

功能說明
StandardScaler無量綱化標準化,基于特征矩陣的列,將特征值轉換至服從標準正態分布
MinMaxScaler無量綱化區間縮放,基于最大最小值,將特征值轉換到[0, 1]區間上
Normalizer歸一化基于特征矩陣的行,將樣本向量轉換為“單位向量”
Binarizer二值化基于給定閾值,將定量特征按閾值劃分
OneHotEncoder啞編碼將定性數據編碼為定量數據
Imputer缺失值計算計算缺失值,缺失值可填充為均值等
PolynomialFeatures多項式數據轉換多項式數據轉換
FunctionTransformer自定義單元數據轉換使用單變元的函數來轉換數據

總結

以上是生活随笔為你收集整理的【数据平台】sklearn库特征工程之数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲啪啪av | 搞黄视频在线观看 | 99热9| 人人干人人玩 | 成人午夜网站 | 国产伦理在线 | 日韩在线观看一区二区 | 最近中文字幕mv | 精品中文一区二区三区 | 精品福利一区二区三区 | 久久b | 成人v| 内射干少妇亚洲69xxx | 日韩激情在线视频 | 哪个网站可以看毛片 | 色av吧| www成人啪啪18软件 | www伊人| 免费看成年人视频 | 五月av综合av国产av | 国产aa视频 | 欧美日韩在线免费观看视频 | 99热免费在线观看 | 日本一区二区免费在线 | 神马影院一区二区三区 | 婷婷五月在线视频 | 欧美日韩午夜精品 | 日韩成人在线播放 | 涩涩涩涩涩涩涩涩涩涩 | 蜜桃视频一区 | 亚洲免费观看高清 | 91精品免费视频 | 91精品国产自产91精品 | 欧美精品国产 | 另类天堂av| 欧美成人国产精品高潮 | 91香蕉视频在线观看免费 | 国产精品久久77777 | 亚洲第一天堂网 | 涩涩资源站 | 国产精品熟女视频 | 噜噜色av | 成人在线中文字幕 | 国产一区二区三区影院 | 午夜视频在线网站 | 少妇裸体性生交 | 高潮白浆女日韩av免费看 | 欧美日韩国产精品一区 | 午夜免费网址 | 91九色在线 | 少妇高潮惨叫久久久久 | 日本激情在线 | 欧美成人黄色小视频 | 婷婷丁香六月 | 丝袜ol美脚秘书在线播放 | 久久久国产高清 | 中文字幕一二三区 | 久久中文字幕电影 | 淫岳高潮记小说 | 欧美亚洲韩国 | 一区二区三区www污污污网站 | 日本一区二区在线不卡 | 久热网 | 双性皇帝高h喷汁呻吟 | 韩国成人在线 | 91久久久久国产一区二区 | 欧美一区二区三区在线播放 | 曰韩精品 | 人人做人人爽人人爱 | 久久久久久国产精品 | 日本天堂影院 | 国产伦精品一区二区三区视频网站 | 全球av在线 | 东京久久久 | 国产一区在线免费 | 嫩草视频网站 | 人妻熟女一区二区aⅴ水野 91在线观看视频 | 五十路息子 | 超碰影院在线 | 久久久18禁一区二区三区精品 | 日本三级中文 | 污视频网站入口 | 国产片一区二区三区 | 97在线超碰 | 黑人av| 天天躁日日躁狠狠躁免费麻豆 | 波多野结衣成人在线 | 黄色草逼网站 | 污视频免费网站 | 不卡一区二区在线视频 | 欧美色哟哟| 粉嫩aⅴ一区二区三区四区五区 | 亚洲精品aⅴ中文字幕乱码 国产精品调教视频 | 亚洲视频国产精品 | www.我爱av| 婷婷天堂网 | 国产熟女高潮一区二区三区 | 99久久婷婷国产一区二区三区 | 在线观看精品国产 |