机器学习之数据预处理——特征编码(标签编码,独热编码)
生活随笔
收集整理的這篇文章主要介紹了
机器学习之数据预处理——特征编码(标签编码,独热编码)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
機器學習之數據預處理——特征編碼
- 數據預處理——特征編碼
- 離散數據的編碼
- 標簽編碼
- sklearn LabelEncoder(使用fit_transform函數)
- sklearn LabelEncoder(反向變換可以用函數 inverse_transform)
- 獨熱編碼
- sklearn OneHotEncoder
機器學習里有一句名言:數據和特征決定了機器學習的上限,而模型和算法的應用只是讓我們逼近這個上限。這個說法形象且深刻的提出前期數據處理和特征分析的重要性。這一點從我們往往用整個數據挖掘全流程60%以上的時間和精力去做建模前期的數據處理和特征分析也能看出。那么疑問來了,這超過60%時間和精力我們都用在哪了?本文基于以往的知識儲備以及實際的項目經驗,我做一個總結。
主要包括三部分,一是獲取數據、數據抽樣,二是數據探索,三是數據預處理與清洗
數據預處理——特征編碼
由于機器學習算法都是在矩陣上執行線性代數計算,所以參加計算的特征必須是數值型的,對于非數值型的特征需要進行編碼
總結
以上是生活随笔為你收集整理的机器学习之数据预处理——特征编码(标签编码,独热编码)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玄派侠氪笔记本即将推出,自带蓝牙耳机
- 下一篇: 机器学习之数据预处理——数据清洗(缺失值