数据数值转换factorize和dummy
數據的數值轉換有兩種方式:
1. factorize
API:
?pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None)?
將對象編碼為枚舉類型或分類變量。
輸入參數:
values: 一維數據序列
sort: 為數據加標簽的時候需不需要保持原有數據的大小關系,默認False
na_sentinel: 對于沒有找到數據的賦予的標簽,默認-1
返回:
labels和uniques,一般使用的是labels,因此在factorize得到的數據要寫上第幾維數據。
pd.factorize()[0]
2. dummy
API:
?pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False,drop_first=False, dtype=None)
?Convert categorical variable into dummy/indicator variables?
輸入參數:
prefix: 轉換成dummy類型后新增加特征的名字前綴
具體這兩種轉換方法對于最后的結果有什么影響還沒有試過,等豆桑把titanic程序看完了實驗一下。
其實就豆桑自己分析的話,由于factorize后的數據不是歸一化的,而get_dummies后的數據都是0和1,不需要再進行歸一化,因此豆桑覺得可能更多地應用會是get_dummies。
總結
以上是生活随笔為你收集整理的数据数值转换factorize和dummy的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CSDN日报191021:我与CSDN的
- 下一篇: GCD的简介及应用