日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分类:特征处理

發(fā)布時(shí)間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分类:特征处理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

特征處理

問題1:連續(xù)特征和離散特征同時(shí)存在時(shí)如何處理?
quora上有人問到了這方面的問題:What are good ways to deal with problems where you have both discrete and continous features?主要的思路是對離散的特征進(jìn)行二值化處理,比如答案中舉的例子:

x = 價(jià)格(連續(xù)型特征) 種類類別(離散型特征) y = 產(chǎn)品賣出數(shù)量 [35.99 Red] [42.95 Green] [10.50 Red] [74.99 Blue]

由于上面產(chǎn)品的類別有3種可能的取值,所以我們可以用3個(gè)虛擬的變量來特?fù)Q掉種類類別這個(gè)特征,這種特征處理方式跟自然語言處理的one-hot處理方式一樣,所以我們可以將上面的特征進(jìn)行處理后每個(gè)樣本可以用一個(gè)4維的向量來表示:

[35.99 1 0 0] [42.95 0 1 0] [10.50 1 0 0] [74.99 0 0 1]

特征經(jīng)過上面的預(yù)處理后,便可以使用這些特征做回歸啊等機(jī)器學(xué)習(xí)任務(wù),如果使用線性回歸的話,我們需要學(xué)習(xí)5個(gè)權(quán)重(每一個(gè)特征對應(yīng)一個(gè)權(quán)重,偏執(zhí)項(xiàng)也可以視為一個(gè)權(quán)重,(w1x1+w2x2+w3x3+w4x4+w0)(w1x1+w2x2+w3x3+w4x4+w0)。此外,我們還需要對每一列的特征進(jìn)行均值歸一化,即(xcoli?μ)/σ(xcoli?μ)/σ。 。其實(shí)對樣本種類類別,我們可以只用兩個(gè)維度的進(jìn)行表示也可以可行的,即以如下方式進(jìn)行表示:

[35.99 0 0] [42.95 0 1] [10.50 0 0] [74.99 1 0]

一般對于特征中既包含有連續(xù)特征又包含有離散特征,對于離散特征差不多都采用這種方式進(jìn)行處理,但是這種方式有一個(gè)比較大的問題,就是當(dāng)離散特征可能的取值比較多時(shí),會(huì)導(dǎo)致通過這種方式處理后的特征維度非常高(one-hot表示方法都有這樣一種特點(diǎn)),向量非常的稀疏,在存儲以及運(yùn)算的時(shí)候,可以通過使用一些支持稀疏表示的矩陣庫進(jìn)行處理(比如Armadillo有稀疏矩陣的表示)。

一些不同的回歸模型比較:
1.?7 Types of Regression Techniques you should know
2.?10 types of regressions. Which one to use?
3.?Regression analysis using Python
4.?scikit learn logistic regression


from:?http://yongyuan.name/blog/feature-engineering-note.html

總結(jié)

以上是生活随笔為你收集整理的数据分类:特征处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。