日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习数据预处理之字符串转数字

發布時間:2023/12/31 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习数据预处理之字符串转数字 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在機器學習中有很多特征有可能是字符串類型的:如周志華老師的西瓜書中西瓜的色澤、紋理、根莖等等。

計算機對字符串的特征是無能為力的,所以將字符串特征映射成數字就成了一個唯一的選擇。
目前有2種主流的方法,一種是:標簽編碼(Label Encoder),另一種是獨熱編碼(One Hot Encoder)。推薦使用獨熱編碼。

標簽編碼:

標簽編碼就是對字符串轉換成1 , 2,3這種形式,但是存在一個問題,就是標簽編碼的結果存在大小的關系,所以這種編碼顯然是有一定的局限性。

#python實現 from sklearn.preprocessing import LabelEncoderlabelencoder = LableEncoder()X[:, 0] = labelencoder.fit_transform(X[:, 0])

獨熱編碼
獨熱編碼就克服了這局限性
它先對該列字符串進行分類,把原有的一列拆成n列(n是分類的個數),如果字符串所在的那一列在這一類上面則這一列為1,其余列為0。

#python實現 from sklearn.preprocessing import OneHotEncoder onehotencoder = OneHotEncoder(categorical_feature=0) x = onehotencoder.fit_transform(x).toarray

總結

以上是生活随笔為你收集整理的机器学习数据预处理之字符串转数字的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。