當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pd.get_dummies()

發(fā)布時間：2024/4/13 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 pd.get_dummies() 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

get_dummies

是利用pandas實現(xiàn)one hot encode的方式

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False) import pandas as pd df = pd.DataFrame([ ['green' , 'A'], ['red' , 'B'], ['blue' , 'A']]) df.columns = ['color', 'class'] pd.get_dummies(df)

對每個類別的值都進(jìn)行0-1編碼

上述執(zhí)行完以后再打印df 出來的還是get_dummies 前的圖，因為你沒有寫

df = pd.get_dummies(df)

可以對指定列進(jìn)行g(shù)et_dummies

pd.get_dummies(df.color)

將指定列進(jìn)行g(shù)et_dummies 后合并到元數(shù)據(jù)中
df = df.join(pd.get_dummies(df.color))

import osos.makedirs(os.path.join('..', 'data'), exist_ok=True) data_file = os.path.join('..', 'data', 'house_tiny.csv') with open(data_file, 'w') as f:f.write('NumRooms,Alley,Price\n') # 列名f.write('NA,Pave,127500\n') # 每行表示一個數(shù)據(jù)樣本f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')import pandas as pd data = pd.read_csv(data_file) print(data)input , output = data.iloc[:, 0:2], data.iloc[:, 2] input = input.fillna(input.mean()) print(input)#input = pd.get_dummies(input) #這樣就沒有值為NAN的那列了只有Alley_Pave input = pd.get_dummies(input, dummy_na=True) #兩列Alley_Pave和Alley_nanprint(input)NumRooms Alley Price 0 NaN Pave 127500 1 2.0 NaN 106000 2 4.0 NaN 178100 3 NaN NaN 140000NumRooms Alley 0 3.0 Pave 1 2.0 NaN 2 4.0 NaN 3 3.0 NaNNumRooms Alley_Pave Alley_nan 0 3.0 1 0 1 2.0 0 1 2 4.0 0 1 3 3.0 0 1

總結(jié)

以上是生活随笔為你收集整理的pd.get_dummies()的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python路径拼接os.path.jo
下一篇： df.drop()