训练集产生的onehot编码特征如何在测试集、预测集复现
生活随笔
收集整理的這篇文章主要介紹了
训练集产生的onehot编码特征如何在测试集、预测集复现
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
? ? ? ?數(shù)據(jù)處理中有時要用到onehot編碼,如果使用pandas自帶的get_dummies方法,訓(xùn)練集產(chǎn)生的onehot編碼特征會跟測試集、預(yù)測集不一樣,正確的方式是使用sklearn自帶的OneHotEncoder。
代碼
import pandas as pd from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown='ignore') data_train=pd.DataFrame({'職業(yè)':['數(shù)據(jù)挖掘工程師','數(shù)據(jù)庫開發(fā)工程師','數(shù)據(jù)分析師','數(shù)據(jù)分析師'],'籍貫':['福州','廈門','泉州','龍巖']}) ohe.fit(data_train)#訓(xùn)練規(guī)則 feature_names=ohe.get_feature_names(data_train.columns)#獲取編碼后的特征名 data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#應(yīng)用規(guī)則在訓(xùn)練集上data_new=pd.DataFrame({'職業(yè)':['數(shù)據(jù)挖掘工程師','jave工程師'],'籍貫':['福州','莆田']}) data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#應(yīng)用規(guī)則在預(yù)測集上如果對你有幫助,請點(diǎn)下贊,予人玫瑰手有余香!
時時仰望天空,理想就會離現(xiàn)實(shí)越來越近!
總結(jié)
以上是生活随笔為你收集整理的训练集产生的onehot编码特征如何在测试集、预测集复现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: macbook蓝牙pan未连接_LOFR
- 下一篇: 【PCA】2D-PCA原始文献《Two-