當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

用户特征工程详细解读

發(fā)布時(shí)間：2024/1/17 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了用户特征工程详细解读小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在網(wǎng)上找到了美團(tuán)一位叫付晴川同學(xué)些的ppt，里面有一幅描述用戶特征工程的圖，感覺(jué)總結(jié)得還是比較到位的。現(xiàn)在把圖片貼出來(lái)：?

這張圖將用戶特征工程里的大面基本都囊括了。因?yàn)閜pt本身做得比較簡(jiǎn)單，現(xiàn)在我們?cè)噲D針對(duì)圖里的每一項(xiàng)，結(jié)合具體的業(yè)務(wù)場(chǎng)景，做個(gè)比較詳細(xì)的分析。

1.原始數(shù)據(jù)提取

原作者畫(huà)圖的時(shí)候?qū)⒌谝豁?xiàng)命名為特征提取，我覺(jué)得作者想表達(dá)的本意應(yīng)該是從哪獲得相關(guān)數(shù)據(jù)，所以叫原始數(shù)據(jù)提取可能更為合適一些。

1.業(yè)務(wù)logs

這部分?jǐn)?shù)據(jù)肯定是實(shí)際應(yīng)用場(chǎng)景的大頭。只要是個(gè)IT公司，每家肯定都有自己的日志或者業(yè)務(wù)數(shù)據(jù)。像電商網(wǎng)站的訂單數(shù)據(jù)一般都是存在mysql/oracle/sqlserver等數(shù)據(jù)庫(kù)中，用戶瀏覽item/search等行為的數(shù)據(jù)一般都有相應(yīng)的日志進(jìn)行記錄。拿到這些數(shù)據(jù)之后就可以進(jìn)行后續(xù)的分析挖掘動(dòng)作了。

2.web公開(kāi)數(shù)據(jù)抓取

這部分?jǐn)?shù)據(jù)就是通過(guò)爬蟲(chóng)抓取的數(shù)據(jù)了，比如最常見(jiàn)的搜索引擎抓取網(wǎng)站內(nèi)容用于索引的那些搜索引擎爬蟲(chóng)。?
看到過(guò)一些有趣的數(shù)據(jù)：2013年來(lái)自Incapsula一份互聯(lián)網(wǎng)報(bào)告顯示，目前有61.5%的互聯(lián)網(wǎng)流量不是由人類產(chǎn)生的，如果你讀到了這篇文章，你就是那個(gè)少數(shù)派（人類）。換句話說(shuō)，實(shí)際上互聯(lián)網(wǎng)流量大部分都是爬蟲(chóng)產(chǎn)生的。。。
正因?yàn)楝F(xiàn)在爬蟲(chóng)已經(jīng)泛濫成災(zāi)，所以很多網(wǎng)站限制爬蟲(chóng)的爬取。所以大家使用爬蟲(chóng)的時(shí)候，也盡可能文明使用，做一只文明的爬蟲(chóng)。。。?
http://blog.csdn.net/bitcarmanlee/article/details/51824080?這是之前寫(xiě)過(guò)的一個(gè)簡(jiǎn)單的爬取糗事百科段子的爬蟲(chóng)，供大家參考。

3.第三方合作

這部分沒(méi)有太多可說(shuō)的。當(dāng)自己數(shù)據(jù)不夠的情況下，可以通過(guò)某些渠道與其他公司或者專門的數(shù)據(jù)公司合作，獲得相關(guān)數(shù)據(jù)。例如廣告系統(tǒng)中，很多公司都會(huì)使用秒針或者Admaster之類的第三方監(jiān)測(cè)機(jī)構(gòu)的數(shù)據(jù)。

2.數(shù)據(jù)清洗

拿到原始數(shù)據(jù)以后，對(duì)原始數(shù)據(jù)進(jìn)行清洗時(shí)非常重要的步驟。因?yàn)楂@得的原始數(shù)據(jù)里面有非常多的臟數(shù)據(jù)甚至錯(cuò)誤數(shù)據(jù)，如果不對(duì)這些數(shù)據(jù)進(jìn)行處理，會(huì)極大地影響最后模型的效果。所以數(shù)據(jù)清洗時(shí)非常重要的一個(gè)步驟。

1.異常值分析過(guò)濾

顧名思義，異常值分析過(guò)濾是分析檢驗(yàn)數(shù)據(jù)中是否有錯(cuò)誤數(shù)據(jù)或者不合理的數(shù)據(jù)。如果有，則將這些數(shù)據(jù)剔除。常見(jiàn)的異常值分析方法有;

1)簡(jiǎn)單統(tǒng)計(jì)量分析方法?
可以對(duì)變量做一個(gè)描述性的統(tǒng)計(jì)與分析，然后查看數(shù)據(jù)是否合理。例如比較常用的統(tǒng)計(jì)量包括最大值與最小值，如果變量超過(guò)了最大值最小值的范圍，那這個(gè)值就為異常值。例如年齡屬性，如果某人填寫(xiě)為200或者-1，這顯然都是屬于異常值的范疇。

2)3原則
如果數(shù)據(jù)的分布服從高斯分布(正態(tài)分布)，3原則是指，測(cè)量值如果與平均值的偏差超過(guò)，即為異常值。理論依據(jù)如下：
當(dāng)，，，。那么如果隨機(jī)變量服從正態(tài)分布，從到的區(qū)間內(nèi)，概率密度曲線下的面積占總面積的99.7%。換句話說(shuō)，隨機(jī)變量落在到的區(qū)間外的概率只有0.3%。這就是3原則。

原理很簡(jiǎn)單，但是非常實(shí)際，三個(gè)標(biāo)準(zhǔn)差以外的數(shù)據(jù)就可以認(rèn)為是異常值了。另外，同學(xué)們請(qǐng)對(duì)一下三個(gè)數(shù)字敏感：0.683,0.954,0.997。?
這部分內(nèi)容最后給一張高斯分布的曲線圖:?

2.數(shù)據(jù)類型檢查

這一個(gè)步驟能避免后續(xù)出現(xiàn)的很多問(wèn)題。例如年齡這個(gè)屬性，應(yīng)該全是數(shù)值類型。但是很多時(shí)候這個(gè)字段出現(xiàn)了字符串類型的值，很明顯這就是異常值，需要進(jìn)行相應(yīng)的處理。比如根據(jù)身份證號(hào)來(lái)進(jìn)行計(jì)算，或者給個(gè)特殊的值-99來(lái)標(biāo)識(shí)等等。

3.清洗換行符制表符空格等特殊字符

如果原始數(shù)據(jù)某些字段中存在換行符空格制表符等特殊字符，絕大部分情況下會(huì)影響后面進(jìn)一步的分析。所以在數(shù)據(jù)清洗階段，根據(jù)業(yè)務(wù)需求處理掉這些特殊字符是很有必要的。例如在大部分場(chǎng)景中，清洗掉字符串中的換行符，都是很必要的。

3.數(shù)據(jù)預(yù)處理

在原圖中，作者將這一步命名為值處理，表達(dá)的意思應(yīng)該是一致的。這一步的處理過(guò)程非常重要，涉及到的點(diǎn)也比較多，為大家選擇一些常見(jiàn)的一一道來(lái)。

1.數(shù)據(jù)平滑

因?yàn)楝F(xiàn)在機(jī)器學(xué)習(xí)的主流是統(tǒng)計(jì)機(jī)器學(xué)習(xí)，既然是統(tǒng)計(jì)，自然就離不開(kāi)概率的計(jì)算。例如在對(duì)文本進(jìn)行分類時(shí)，語(yǔ)料庫(kù)畢竟是有限的。假設(shè),,沒(méi)在語(yǔ)料庫(kù)中出現(xiàn)過(guò)，那根據(jù)最大似然估計(jì)MLE，這些詞出現(xiàn)的概率為0。但是實(shí)際上這些詞出現(xiàn)的概率肯定是不為0的。像最大似然估計(jì)里涉及到很多概率的連乘計(jì)算，如果一個(gè)概率為0，就會(huì)導(dǎo)致整體計(jì)算結(jié)果為0。這時(shí)候，就需要我們對(duì)數(shù)據(jù)進(jìn)行平滑了。
平滑的算法有很多。最簡(jiǎn)單的平滑方式屬于加1平滑了，就是給每種情況出現(xiàn)的次數(shù)都加上1，這樣就避免了概率為0的情況。這種方式簡(jiǎn)單粗暴，實(shí)際使用的效果一般也不會(huì)特別理想。當(dāng)然還有Good-turning平滑，線性插值平滑（Linear Interpolation Smoothing）等其他算法，根據(jù)具體的業(yè)務(wù)場(chǎng)景進(jìn)行選擇。

2.歸一化

歸一化也是常見(jiàn)的數(shù)據(jù)預(yù)處理操作。歸一化的具體細(xì)節(jié)請(qǐng)參考http://blog.csdn.net/bitcarmanlee/article/details/51353016一文。

3.離散化

離散化是把連續(xù)型的數(shù)據(jù)分為若干段，是數(shù)據(jù)分析與數(shù)據(jù)挖掘中經(jīng)常采用的一種方法。對(duì)數(shù)據(jù)進(jìn)行離散化，最大的好處就是有些算法只接受離散型變量。例如決策樹(shù)，樸素貝葉斯等算法，不能以連續(xù)型變量為輸入。如果輸入時(shí)連續(xù)型數(shù)據(jù)，必須要先經(jīng)過(guò)離散化處理。
常見(jiàn)的離散化方式有等距與等頻離散化，都比較容易理解。等距就是將連續(xù)型隨機(jī)變量的取值范圍均勻劃為n等份，每份的間距相等。例如年齡本來(lái)是個(gè)連續(xù)值，用等距離散化以后，1-10，10-20，20-30，30-40等各劃為一組。而等頻則是把觀察點(diǎn)均分為n等份，每份里面包含的樣本相同。例如有1萬(wàn)個(gè)樣本，將樣本按采樣時(shí)間順序排列，然后按一千個(gè)樣本為一組，將全部的樣本分為十等份。
當(dāng)然離散化，包括前面的歸一化，都是會(huì)有負(fù)面效果的，這個(gè)負(fù)面效果就是會(huì)帶來(lái)信息的損失。比如本來(lái)我們本來(lái)有詳盡的年齡數(shù)據(jù)，在決策樹(shù)算法或者貝葉斯算法中為了算法的需要，不得已將年齡變?yōu)閮和嗌倌陦涯昀夏赀@樣的離散變量，信息肯定就不如具體的年齡大小那么準(zhǔn)確與詳盡。所以在使用歸一化，離散化等數(shù)據(jù)處理分析手段時(shí)，要結(jié)合具體的實(shí)際情況，謹(jǐn)慎使用。
http://blog.csdn.net/bitcarmanlee/article/details/51472816一文中專門講解了one-hot編碼，就是數(shù)據(jù)離散化的一種具體形式。

4.dummy coding

這部分實(shí)際中我沒(méi)怎么使用過(guò)，后續(xù)找相關(guān)資料再進(jìn)行補(bǔ)充。

5.缺失值填充

數(shù)據(jù)中某些字段缺失是數(shù)據(jù)分析挖掘中非常頭疼的一個(gè)問(wèn)題。現(xiàn)實(shí)世界中的數(shù)據(jù)往往非常雜亂非常臟，原始數(shù)據(jù)中某個(gè)字段或者某些字段缺失是非常常見(jiàn)的現(xiàn)象。但是盡管數(shù)據(jù)有缺失，生活還要繼續(xù)，工作還得繼續(xù)。面對(duì)這種情況，該怎樣繼續(xù)呢？

方法一：丟棄?
最簡(jiǎn)單的方式，如果發(fā)現(xiàn)數(shù)據(jù)有缺失，直接刪除這個(gè)字段或者將整個(gè)樣本丟棄。如果大部分樣本的某個(gè)字段都缺失，那么很明顯這個(gè)字段就是不可用狀態(tài)。如果某條樣本的大部分字段都缺失，那么很明顯這個(gè)樣本就是不可用狀態(tài)。這種處理方式簡(jiǎn)單粗暴，效率高，但是很明顯適用范圍有限，只適合數(shù)據(jù)缺失較少的情況。如果某個(gè)特征特別重要，數(shù)據(jù)缺失情況還特別嚴(yán)重，那么美別的辦法，老老實(shí)實(shí)重新采集數(shù)據(jù)吧。

方法二：統(tǒng)計(jì)值填充?
如果某個(gè)屬性缺失，特別是數(shù)值類型的屬性，可以根據(jù)所有樣本關(guān)于這維屬性的統(tǒng)計(jì)值填充，常見(jiàn)的有平均值、中值、分位數(shù)、眾數(shù)、隨機(jī)值等。這種方式難度也不大，效果一般。最大的副作用就是人為帶來(lái)了不少噪聲。

方法三：預(yù)測(cè)填充?
用其他變量做預(yù)測(cè)模型來(lái)預(yù)測(cè)缺失值，效果一般比統(tǒng)計(jì)值填充要好一些。但是此方法有一個(gè)根本缺陷，如果其他變量和缺失變量無(wú)關(guān)，則預(yù)測(cè)的結(jié)果無(wú)意義。如果預(yù)測(cè)結(jié)果相當(dāng)準(zhǔn)確，則又說(shuō)明這個(gè)變量是沒(méi)必要加入建模的。一般情況下，介于兩者之間。

方法四：將變量映射到高維空間?
比如性別，有男、女、缺失三種情況，則映射成3個(gè)變量：是否男、是否女、是否缺失。連續(xù)型變量也可以這樣處理。比如Google、百度的CTR預(yù)估模型，預(yù)處理時(shí)會(huì)把所有變量都這樣處理，達(dá)到幾億維。這樣做的好處是完整保留了原始數(shù)據(jù)的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問(wèn)題。缺點(diǎn)是計(jì)算量大大提升。而且只有在樣本量非常大的時(shí)候效果才好，否則會(huì)因?yàn)檫^(guò)于稀疏，效果很差。(本小結(jié)內(nèi)容來(lái)自知乎)

6.分詞 tf/idf

嚴(yán)格意義上說(shuō)，分詞屬于NLP的范疇。既然原圖中提到了分詞tf/idf，我們就簡(jiǎn)單介紹一下。?
TF-IDF全稱為term frequency–inverse document frequency。TF就是term frequency的縮寫(xiě)，意為詞頻。IDF則是inverse document frequency的縮寫(xiě)，意為逆文檔頻率。tf-idf通常用來(lái)提取關(guān)鍵詞。比如，對(duì)一個(gè)文章提取關(guān)鍵詞作為搜索詞，就可以采用TF-IDF算法。
要找出一篇文章中的關(guān)鍵詞，通常的思路就是，就是找到出現(xiàn)次數(shù)最多的詞。如果某個(gè)詞很重要，它應(yīng)該在這篇文章中多次出現(xiàn)。于是，我們進(jìn)行詞頻TF統(tǒng)計(jì)。但是，在中文文獻(xiàn)里，的地得了等類似的詞匯出現(xiàn)的頻率一定是最高的，而且這類詞沒(méi)什么實(shí)際的含義，我們就叫他停用詞，一般遇到停用詞就將他扔掉。
扔掉停用詞以后，我們也不能簡(jiǎn)單地認(rèn)為出現(xiàn)頻率最高的詞就是我們所需要的關(guān)鍵字。如果一個(gè)詞很少見(jiàn)，但是它在某個(gè)文章中反復(fù)出現(xiàn)多次，那么可以認(rèn)為這個(gè)詞反應(yīng)了這個(gè)文章的特性，可以把它作為關(guān)鍵詞。在信息檢索中，這個(gè)權(quán)重非常重要，它決定了關(guān)鍵詞的重要度，這個(gè)權(quán)重叫做逆文檔頻率，它的大小與一個(gè)詞的常見(jiàn)程度成反比。
在知道了詞頻和權(quán)重之后，兩者相乘，就得到一個(gè)詞的TF-IDF值，某個(gè)詞對(duì)文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的幾個(gè)詞，就是這篇文章的關(guān)鍵詞。
分詞有許多開(kāi)源的工具包可以使用，例如中文分詞可以使用結(jié)巴分詞。

4.特征選擇

終于到我們最關(guān)鍵的特征選擇部分了。記得我看到過(guò)這么一個(gè)觀點(diǎn)：不論什么算法與模型，效果的上限都是由特征來(lái)決定的，而不同的算法與模型只是不斷地去逼近這個(gè)上限而已。我自己對(duì)這個(gè)觀點(diǎn)也深以為然。特征選擇的重要性由此就可見(jiàn)一斑。

特征選擇算法可以被視為搜索技術(shù)和評(píng)價(jià)指標(biāo)的結(jié)合。前者提供候選的新特征子集，后者為不同的特征子集打分。最簡(jiǎn)單的算法是測(cè)試每個(gè)特征子集，找到究竟哪個(gè)子集的錯(cuò)誤率最低。這種算法需要窮舉搜索空間，難以算完所有的特征集，只能涵蓋很少一部分特征子集。選擇何種評(píng)價(jià)指標(biāo)很大程度上影響了算法。而且，通過(guò)選擇不同的評(píng)價(jià)指標(biāo)，可以吧特征選擇算法分為三類：包裝類(wrapper)、過(guò)濾類(filter)和嵌入類(embedded)方法。(本段描述來(lái)自wiki百科)

1.embedded 嵌入類方法

嵌入類算法在模型建立的時(shí)候，會(huì)考慮哪些特征對(duì)于模型的貢獻(xiàn)最大。最典型的即決策樹(shù)系列算法，如ID3算法、C4.5算法以及CART等。決策樹(shù)算法在樹(shù)生成過(guò)程中，每次回選擇一個(gè)特征。這個(gè)特征會(huì)將原樣本集劃分成較小的子集，而選擇特征的依據(jù)是劃分后子節(jié)點(diǎn)的純度，劃分后子節(jié)點(diǎn)越純，則說(shuō)明劃分效果越好。由此可見(jiàn)決策樹(shù)生成的過(guò)程也就是特征選擇的過(guò)程。
另外一個(gè)標(biāo)準(zhǔn)的嵌入類方法是正則的方式，例如我們反復(fù)提到L1正則的方式可以用來(lái)做特征選擇。L1正則中，最后系數(shù)為0的特征說(shuō)明對(duì)模型貢獻(xiàn)很小，我們保留系數(shù)不為0的特征即可，這樣就達(dá)到了特征選擇的目的。關(guān)于正則的詳細(xì)內(nèi)容可以參考：
http://blog.csdn.net/bitcarmanlee/article/details/51932055。

2.wrapper 包裝類方法

封裝式特征選擇是利用學(xué)習(xí)算法的性能來(lái)評(píng)價(jià)特征子集的優(yōu)劣。因此，對(duì)于一個(gè)待評(píng)價(jià)的特征子集，Wrapper方法需要訓(xùn)練一個(gè)分類器，根據(jù)分類器的性能對(duì)該特征子集進(jìn)行評(píng)價(jià)。Wrapper方法中用以評(píng)價(jià)特征的學(xué)習(xí)算法是多種多樣的，例如決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類器、近鄰法以及支持向量機(jī)等等。
相對(duì)于Filter方法，Wrapper方法找到的特征子集分類性能通常更好。但是因?yàn)閃rapper方法選出的特征通用性不強(qiáng)，當(dāng)改變學(xué)習(xí)算法時(shí)，需要針對(duì)該學(xué)習(xí)算法重新進(jìn)行特征選擇；由于每次對(duì)子集的評(píng)價(jià)都要進(jìn)行分類器的訓(xùn)練和測(cè)試，所以算法計(jì)算復(fù)雜度很高，尤其對(duì)于大規(guī)模數(shù)據(jù)集來(lái)說(shuō)，算法的執(zhí)行時(shí)間很長(zhǎng)。(比部分內(nèi)容來(lái)自jason的blog)

3.filter 過(guò)濾類方法

過(guò)濾類方法是實(shí)際中使用最廣泛最頻繁的特征選擇方法。過(guò)濾特征選擇方法運(yùn)用統(tǒng)計(jì)方法將一個(gè)統(tǒng)計(jì)值分配給每個(gè)特征，這些特征按照分?jǐn)?shù)排序，然后決定是被保留還是從數(shù)據(jù)集中刪除。
常見(jiàn)的統(tǒng)計(jì)量包括信息增益，信息熵類。詳情可參考http://blog.csdn.net/bitcarmanlee/article/details/51488204。
卡方也是常見(jiàn)的用于做特征選擇的方式。?
另外fisher scores也是filter過(guò)濾類中常見(jiàn)的指標(biāo)。

5.特征組合

嚴(yán)格意義上來(lái)說(shuō)，特征組合也屬于特征選擇的一部分。取工業(yè)界最常見(jiàn)的LR模型為例，LR模型本質(zhì)上是廣義線性模型(對(duì)數(shù)線性模型)，實(shí)現(xiàn)簡(jiǎn)單而且容易并行，計(jì)算速度也比較快，同時(shí)使用的特征比較好解釋，預(yù)測(cè)輸出的概率在0與1之間也非常方便易用。但是，與一般模型的容易o(hù)verfitting不一樣，LR模型卻是一個(gè)underfitting模型，因?yàn)長(zhǎng)R模型本身不夠復(fù)雜，甚至可以說(shuō)相當(dāng)簡(jiǎn)單。而現(xiàn)實(shí)中很多問(wèn)題不僅僅是線性關(guān)系，更多是復(fù)雜的非線性關(guān)系。這個(gè)時(shí)候，我們就希望通過(guò)特征組合的方式，來(lái)描述這種更為復(fù)雜的非線性關(guān)系。

目前常見(jiàn)的用于特征組合的方法：

1.GBDT

2014年facebook發(fā)表了一篇paper，講的就是GBDT+LR用于特征組合，發(fā)表以后引起比較大的反響。文章名為Practical Lessons from Predicting Clicks on Ads at Facebook，有興趣的同學(xué)們可以google一把。

2.FM

FM算法也是用于對(duì)特征進(jìn)行組合的一種方式。FM算法的具體細(xì)節(jié)，可以參考http://blog.csdn.net/bitcarmanlee/article/details/52143909。

6.數(shù)據(jù)降維

降維，又被稱為維度規(guī)約。現(xiàn)實(shí)世界中得到的數(shù)據(jù)一般都有冗余，要么有一些是無(wú)用信息，要么有一些是重復(fù)的信息，我們針對(duì)這部分冗余數(shù)據(jù)進(jìn)行一些處理之后，可以明顯減少數(shù)據(jù)的大小與維度的多少。給大家舉個(gè)很簡(jiǎn)單的實(shí)際場(chǎng)景，用iphone拍出來(lái)的原始照片一般大小都為2-3M。但是我們通過(guò)qq或者微信等工具傳輸這些照片的時(shí)候，發(fā)現(xiàn)傳輸成功以后這些照片的大小就變成只有幾十KB了，這就是因?yàn)樵趥鬏斦掌倪^(guò)程中，事先會(huì)對(duì)照片進(jìn)行壓縮，壓縮完畢以后再進(jìn)行傳送以節(jié)省寶貴的帶寬資源。而這個(gè)數(shù)據(jù)壓縮的過(guò)程，其實(shí)就等同于降維的過(guò)程。

很明顯數(shù)據(jù)經(jīng)過(guò)降維處理以后，會(huì)大大節(jié)約數(shù)據(jù)存儲(chǔ)空間。同時(shí)，也會(huì)大大較少數(shù)據(jù)的后續(xù)處理計(jì)算時(shí)間。因此，數(shù)據(jù)降維技術(shù)或者說(shuō)數(shù)據(jù)壓縮技術(shù)，在實(shí)際中有非常廣泛的應(yīng)用。

一般來(lái)說(shuō)，數(shù)據(jù)降維可以從兩個(gè)方面來(lái)實(shí)施。比較簡(jiǎn)單的一種方式是提取特征子集，然后用這部分子集來(lái)表示原有數(shù)據(jù)。例如圖像處理里面，如果一幅128*128的圖片，只有中心32*32的部分有非0值，那么就只取中心32*32的部分。另外一種是通過(guò)線性/非線性的方式將原來(lái)高維空間變換到一個(gè)新的空間，這個(gè)新的空間維度比原來(lái)的高維空間要小，這樣就達(dá)到了降維的目的。一般大家討論的所謂降維技術(shù)，都是后面一種。

1.主成分分析 Principal Component Analysis(PCA)

PCA是最常用的線性降維方法。PCA的理論認(rèn)為，特征的主方向，是特征幅度變化最大的方向，既改維度上數(shù)據(jù)的方差最大。這樣經(jīng)過(guò)PCA以后，就可以使用較小的數(shù)據(jù)維度，保留住較多的原數(shù)據(jù)點(diǎn)的特性，從而達(dá)到降維的目的。
PCA的具體過(guò)程，以后會(huì)寫(xiě)相關(guān)的文章專門介紹。

2.奇異值分解 Singular Value Decomposition(SVD)

SVD也是實(shí)際中使用非常廣泛的一種方法。關(guān)于SVD的詳細(xì)介紹，請(qǐng)參考http://blog.csdn.net/bitcarmanlee/article/details/52068118。

3.線性判別分析 Linear Discriminant Analysis(LDA)

以上內(nèi)容，基本就涵蓋了用戶特征工程的各個(gè)大的方面。當(dāng)然某個(gè)實(shí)際項(xiàng)目中，不可能上面的所有方法都用到。還是得結(jié)合數(shù)據(jù)的具體情況與業(yè)務(wù)需求，選擇最適合自己的方法！

原文鏈接：http://blog.csdn.net/bitcarmanlee/article/details/52244237

總結(jié)

以上是生活随笔為你收集整理的用户特征工程详细解读的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：无约束优化方法
下一篇： spark 应用程序性能优化：12 个优