word2vec模型评估_特征工程(下)—特征评估
點(diǎn)擊上方“大數(shù)據(jù)與人工智能”,“星標(biāo)或置頂公眾號(hào)”
第一時(shí)間獲取好內(nèi)容
作者丨stephenDC
編輯丨Zandy
這是作者的第15篇文章
本文是特征工程系列的第3篇,也是最后一篇。
作者會(huì)在本文中結(jié)合自己在視頻推薦方面的工作經(jīng)驗(yàn),著重從工程實(shí)現(xiàn)方面,講述如何對(duì)特征進(jìn)行評(píng)估的問題。下文中,我們首先會(huì)厘清“特征評(píng)估”的概念,然后講述特征評(píng)估的標(biāo)準(zhǔn),最后是問題的反向排查。
?涉及到“特征選擇”和“特征表達(dá)”的細(xì)節(jié)或背景,大家可以參閱該系列的前兩篇文章,《特征工程(上)—特征選擇》和《特征工程(中)-特征表達(dá)》。
厘清概念
? ??什么是特征評(píng)估?
特征評(píng)估從概念上很容易跟特征選擇糾纏到一起,因此非常有必要先厘清概念。在特征選擇的過程中,我們需要對(duì)特征的每個(gè)維度進(jìn)行評(píng)估,來選擇出相對(duì)更重要的特征。然后,對(duì)于選擇出的特征維度,我們會(huì)根據(jù)原始數(shù)據(jù),對(duì)特征進(jìn)行編碼,進(jìn)而得到特征。本文所說的特征評(píng)估,指的是對(duì)已經(jīng)生成的特征的整體評(píng)估,發(fā)生在特征選擇和特征編碼之后,因此不要跟特征選擇過程中的對(duì)單個(gè)特征維度相對(duì)重要性的評(píng)估弄混了。評(píng)估標(biāo)準(zhǔn)
? ? ? ? ? ??分析前需要優(yōu)先考慮哪些特征?特征工程的最終目的是提供給模型做預(yù)測(cè),因此只要特征在模型上表現(xiàn)的好就夠了。這話一點(diǎn)兒沒錯(cuò),但倘若特征的表現(xiàn)不如人意呢?我們有沒有辦法提前發(fā)現(xiàn)問題,或者說如果最后不得不推倒重來,怎么找到改進(jìn)的方向。所以,在最終的定量分析之前,還需要從特征的覆蓋率、特征維度、定性分析等各個(gè)方面,對(duì)特征進(jìn)行先行評(píng)估。- 覆蓋率
標(biāo)簽:視頻標(biāo)簽是內(nèi)容的體現(xiàn),因此是基于內(nèi)容生成特征的典型方式。有了視頻標(biāo)簽,就可以用One-hot或者TF-IDF的方式,進(jìn)行特征編碼,進(jìn)而得到特征。因此,這種方法的覆蓋率,取決于視頻標(biāo)簽的覆蓋率。
ALS:ALS是Alternating Least Square的首字母縮寫,是Spark mllib最早實(shí)現(xiàn)的算法之一。ALS是求解矩陣分解的一種典型方法,將用戶對(duì)視頻的評(píng)分矩陣進(jìn)行分解,分別得到用戶和視頻的特征。因此,這種方法存在冷啟動(dòng)問題,無法覆蓋到尚無用戶操作過的視頻,也無法覆蓋尚未有過操作行為的用戶。
Word2vec:Word2vec是谷歌提出的詞嵌入模型,可以將一個(gè)詞嵌入到特定的特征空間之中,并維持詞與詞之間的語義關(guān)系。如果每個(gè)視頻當(dāng)成一個(gè)單詞,將每個(gè)用戶觀看過的視頻當(dāng)成一個(gè)句子,則可以用Word2vec對(duì)視頻編碼,得到視頻特征。所以,這種方法從原理上決定了,對(duì)沒有被播放過或剛上線不久未被用戶充分選擇的視頻,因?yàn)榈玫降奶卣鲿?huì)不準(zhǔn)確,都無法覆蓋。
特征維度
- 定性分析
- 定量分析
問題反向排查
? ? ? ? ?特征表現(xiàn)不好,如何找出問題所在?如果特征表現(xiàn)不好,怎么樣去查找問題所在,找到改進(jìn)方向呢?我們先來分析一下,最終的定量分析指標(biāo),比如RMSE,是怎么得到。首先,需要先從數(shù)據(jù)源提取出特征。在這個(gè)過程中,數(shù)據(jù)源的質(zhì)量、特征提取的方案,都會(huì)影響到最后得到的特征。然后,我們將特征灌入模型進(jìn)行訓(xùn)練,這時(shí)模型的選型、模型的訓(xùn)練,都會(huì)影響到最終的分析指標(biāo)。所以,當(dāng)特征表現(xiàn)不夠好時(shí),我們就可以按照這個(gè)流程對(duì)問題進(jìn)行反向排查了。1
模型的問題
首先,我們需要排除模型的問題。大家都知道,機(jī)器學(xué)習(xí)是沒有免費(fèi)午餐的,沒有任何一種模型可以在任何問題上表現(xiàn)都優(yōu)于另一種模型。所以,我們要根據(jù)特征和數(shù)據(jù)量,選擇合適的模型。舉例:FM會(huì)對(duì)一階特征進(jìn)行二階交叉,這對(duì)標(biāo)簽特征很有意義,那對(duì)Word2vec這樣的嵌入特征是否就不一定合適了呢?再比如,KNN在低維問題上表現(xiàn)非常出色,但對(duì)于高維的特征,由于維度災(zāi)難的問題,也是不適合的。如果這組特征在各種模型下的表現(xiàn)都不夠好,此時(shí)我們就需要去考慮特征本身可能的問題了。2
特征的問題
在數(shù)據(jù)源確定的情況下,影響特征質(zhì)量的因素主要是特征選擇和特征編碼。在特征選擇方面,我們要考慮選擇出的特征是否完備,冗余度如何等。在編碼方案上,我們也要考慮現(xiàn)有的編碼方式,是否能合理地刻畫一個(gè)對(duì)象。舉例:比如,作者先前很排斥對(duì)電影標(biāo)簽用TF-IDF的方式編碼。因?yàn)橹苄邱Y比趙本山演了更多的電影,“周星馳”這個(gè)標(biāo)簽比“趙本山”IDF(逆向文本頻率)項(xiàng)的值就要低很多;但周星馳的電影風(fēng)格很凸出,而《三槍》和《一代宗師》卻并沒有因?yàn)橼w本山的參演而增加多少相似性。但后來從全局考慮,作者還是接受了TF-IDF的方案,而“周星馳”這個(gè)標(biāo)簽的重要程度只能從視頻標(biāo)簽權(quán)重的角度補(bǔ)回來了。再比如,對(duì)用戶看過的視頻,如何根據(jù)播放行為轉(zhuǎn)化為分?jǐn)?shù)?要不要考慮觀看行為的時(shí)間衰減,如何衰減?這些都會(huì)影響到最終的特征。如果特征的編碼方案經(jīng)過排查,并沒有大的問題,但特征表現(xiàn)還是不夠好,那就需要去排查數(shù)據(jù)源的問題了。。3
數(shù)據(jù)源問題
還是以視頻推薦為背景,基于標(biāo)簽的特征構(gòu)建,依賴視頻標(biāo)簽數(shù)據(jù)和用戶行為數(shù)據(jù)。也就是說,如果標(biāo)簽不準(zhǔn),或者用戶行為里混入了臟數(shù)據(jù),特征工程的質(zhì)量是可以想見的。這個(gè)問題很難完全避免,但需要相關(guān)團(tuán)隊(duì)的大力支持。比如,視頻標(biāo)簽需要編輯團(tuán)隊(duì)辛苦的打標(biāo)簽工作;而用戶行為日志,則需要BI團(tuán)隊(duì)辛苦的ETL工作。沒有這些相關(guān)同事的工作,特征工程就是巧婦難為無米之炊了。小結(jié)
本文在“特征選擇”和“特征表達(dá)”的基礎(chǔ)上,聊了一下特征評(píng)估的問題。至此,特征工程系列終于結(jié)束。由于作者的水平及在這方面的工作經(jīng)驗(yàn)均非常有限,個(gè)中不足還請(qǐng)大家不吝賜教。-end-相關(guān)內(nèi)容閱讀1.特征工程(中)-特征表達(dá)
2.特征工程(上)—特征選擇
3.指數(shù)分布族
4.誤差反向傳播
5.極大似然估計(jì)、極大后驗(yàn)估計(jì)和貝葉斯估計(jì)
6.?稀疏核機(jī)(下)—稀疏性
7.?稀疏核機(jī)(中)—核方法
8.稀疏核機(jī)(上)—SVM回顧
總結(jié)
以上是生活随笔為你收集整理的word2vec模型评估_特征工程(下)—特征评估的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: gpg加密命令 linux_用 PGP
- 下一篇: idea怎么提交到dev分支_IDEA设