當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分类：特征处理

發(fā)布時(shí)間：2025/3/21 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分类：特征处理小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

特征處理

問題1：連續(xù)特征和離散特征同時(shí)存在時(shí)如何處理？
quora上有人問到了這方面的問題：What are good ways to deal with problems where you have both discrete and continous features?主要的思路是對離散的特征進(jìn)行二值化處理，比如答案中舉的例子：

x = 價(jià)格(連續(xù)型特征) 種類類別(離散型特征) y = 產(chǎn)品賣出數(shù)量 [35.99 Red] [42.95 Green] [10.50 Red] [74.99 Blue]

由于上面產(chǎn)品的類別有3種可能的取值，所以我們可以用3個(gè)虛擬的變量來特?fù)Q掉種類類別這個(gè)特征，這種特征處理方式跟自然語言處理的one-hot處理方式一樣，所以我們可以將上面的特征進(jìn)行處理后每個(gè)樣本可以用一個(gè)4維的向量來表示：

[35.99 1 0 0] [42.95 0 1 0] [10.50 1 0 0] [74.99 0 0 1]

特征經(jīng)過上面的預(yù)處理后，便可以使用這些特征做回歸啊等機(jī)器學(xué)習(xí)任務(wù)，如果使用線性回歸的話，我們需要學(xué)習(xí)5個(gè)權(quán)重(每一個(gè)特征對應(yīng)一個(gè)權(quán)重，偏執(zhí)項(xiàng)也可以視為一個(gè)權(quán)重，(w1x1+w2x2+w3x3+w4x4+w0)。此外，我們還需要對每一列的特征進(jìn)行均值歸一化，即(xcoli?μ)/σ。。其實(shí)對樣本種類類別，我們可以只用兩個(gè)維度的進(jìn)行表示也可以可行的，即以如下方式進(jìn)行表示：

[35.99 0 0] [42.95 0 1] [10.50 0 0] [74.99 1 0]

一般對于特征中既包含有連續(xù)特征又包含有離散特征，對于離散特征差不多都采用這種方式進(jìn)行處理，但是這種方式有一個(gè)比較大的問題，就是當(dāng)離散特征可能的取值比較多時(shí)，會(huì)導(dǎo)致通過這種方式處理后的特征維度非常高(one-hot表示方法都有這樣一種特點(diǎn))，向量非常的稀疏，在存儲以及運(yùn)算的時(shí)候，可以通過使用一些支持稀疏表示的矩陣庫進(jìn)行處理(比如Armadillo有稀疏矩陣的表示)。

一些不同的回歸模型比較：
1.?7 Types of Regression Techniques you should know
2.?10 types of regressions. Which one to use?
3.?Regression analysis using Python
4.?scikit learn logistic regression

from:?http://yongyuan.name/blog/feature-engineering-note.html

總結(jié)

以上是生活随笔為你收集整理的数据分类：特征处理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：用Hadoop1.0.3实现KMeans
下一篇：日本常用姓氏表