日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

sklearn处理文本和分类属性的方式

發(fā)布時(shí)間:2024/1/23 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 sklearn处理文本和分类属性的方式 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

      • 類(lèi)別轉(zhuǎn)換成數(shù)字
      • 類(lèi)別one-hot

類(lèi)別轉(zhuǎn)換成數(shù)字

我們看一下文本屬性。在此數(shù)據(jù)集中,只有一個(gè):ocean_proximity屬性:

housing_cat = housing[['ocean_proximity']] sklearn.utils.shuffle(housing_cat).head() ocean_proximity107633221112481152630
<1H OCEAN
NEAR BAY
<1H OCEAN
NEAR OCEAN
NEAR OCEAN

它不是任意文本,而是有限個(gè)可能的取值,每個(gè)值代表一個(gè)類(lèi)別。因此,此屬性是分類(lèi)屬性。大多數(shù)機(jī)器學(xué)習(xí)算法更喜歡使用數(shù)字,因此讓我們將這些類(lèi)別從文本轉(zhuǎn)到數(shù)字:

from sklearn.preprocessing import OrdinalEncoder ordinal_encoder = OrdinalEncoder() housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat) np.random.permutation(housing_cat_encoded)[:5] array([[4.],[1.],[0.],[4.],[4.]])

我們看一下每個(gè)數(shù)字的含義:

ordinal_encoder.categories_ [array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],dtype=object)]

類(lèi)別one-hot

上述將類(lèi)型轉(zhuǎn)化為數(shù)字的方式產(chǎn)生的一個(gè)問(wèn)題是,機(jī)器學(xué)習(xí)算法會(huì)認(rèn)為兩個(gè)相近的值比兩個(gè)離得較遠(yuǎn)的值更為相似一些。在某些情況下這是對(duì)的(對(duì)一些有序類(lèi)別,像“壞”“平均”“好”“優(yōu)秀”),但是,對(duì)ocean_proximity而言情況并非如此(例如,類(lèi)別0和類(lèi)別4之間就比類(lèi)別0和類(lèi)別1之間的相似度更高)。為了解決這個(gè)問(wèn)題,常見(jiàn)的解決方案是給每個(gè)類(lèi)別創(chuàng)建一個(gè)二進(jìn)制的屬性:當(dāng)類(lèi)別是“<1HOCEAN”時(shí),一個(gè)屬性為1(其他為0),當(dāng)類(lèi)別是“INLAND”時(shí),另一個(gè)屬性為1(其他為0),以此類(lèi)推。這就是獨(dú)熱編碼,因?yàn)橹挥幸粋€(gè)屬性為1(熱),其他均為0(冷)。新的屬性有時(shí)候稱(chēng)為啞(dummy)屬性。ScikitLearn提供了一個(gè)OneHotEncoder編碼器,可以將整數(shù)類(lèi)別值轉(zhuǎn)換為獨(dú)熱向量。我們用它來(lái)將類(lèi)別編碼為獨(dú)熱向量

from sklearn.preprocessing import OneHotEncoder oh_encoder = OneHotEncoder() housing_1hot = oh_encoder.fit_transform(housing_cat) housing_1hot <20640x5 sparse matrix of type '<class 'numpy.float64'>'with 20640 stored elements in Compressed Sparse Row format>

注意到這里的輸出是一個(gè)SciPy稀疏矩陣,而不是一個(gè)NumPy數(shù)組。當(dāng)你有成千上萬(wàn)個(gè)類(lèi)別屬性時(shí),這個(gè)函數(shù)會(huì)非常有用。因?yàn)樵讵?dú)熱編碼完成之后,我們會(huì)得到一個(gè)幾千列的矩陣,并且全是0,每行僅有一個(gè)1。占用大量?jī)?nèi)存來(lái)存儲(chǔ)0是一件非常浪費(fèi)的事情,因此稀疏矩陣選擇僅存儲(chǔ)非零元素的位置。而你依舊可以像使用一個(gè)普通的二維數(shù)組那樣來(lái)使用他,當(dāng)然如果你實(shí)在想把它轉(zhuǎn)換成一個(gè)(密集的)NumPy數(shù)組,只需要調(diào)用toarray()方法即可:

housing_1hot.toarray() array([[0., 0., 0., 1., 0.],[0., 0., 0., 1., 0.],[0., 0., 0., 1., 0.],...,[0., 1., 0., 0., 0.],[0., 1., 0., 0., 0.],[0., 1., 0., 0., 0.]])

關(guān)于one-hot的詳細(xì)內(nèi)容,可以參考另一篇文章:數(shù)值分箱與one-hot

總結(jié)

以上是生活随笔為你收集整理的sklearn处理文本和分类属性的方式的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。