电商推荐算法
一、 電商推薦算法簡述
目前比較多的電商模式為B2B,B2C,O2O,在本文介紹和需要舉例說明的地方B2B電商模式為主。
電商推薦根據(jù)推薦內(nèi)容不同分為物品推薦、商家推薦;流行的推薦應(yīng)用主要有三個方面:1)針對用戶的瀏覽、搜索等行為所做的相關(guān)推薦;2)根據(jù)購物車或物品收藏所做的相似物品推薦;3)根據(jù)歷史會員購買行為記錄,利用推薦機制做郵件推送或會員營銷。其中推薦算法主要分為以下幾個類:
1、基于用戶的協(xié)同過濾推薦算法
a. 找到與目標(biāo)用戶興趣相似的用戶集合
b. 找到這個集合中用戶喜歡的、并且目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶
2、基于Item(項目)的協(xié)同過濾推薦算法
a.基于用戶對某商品的興趣程度,尋找出相似度最大的物品。
b.將相似度最大的物品推薦給目標(biāo)用戶。
協(xié)同過濾舉例:四個用戶ABCD,對5個商品abcde的興趣與否見下表(實際用戶對物品的興趣程度有區(qū)別,需要具體的評分量化),這里方便理解原理,用二元值表示用戶對物品是否感興趣。
|
a |
b |
c |
d |
e |
目標(biāo)物品 |
|
|
A |
1 |
1 |
0 |
1 |
0 |
1 |
|
B |
1 |
0 |
1 |
0 |
0 |
0 |
|
C |
0 |
1 |
0 |
0 |
1 |
1 |
|
D |
0 |
1 |
1 |
1 |
0 |
? |
基于用戶的協(xié)同過濾:指根據(jù)用戶對各物品的興趣度計算相似性,相似性的算法有很多(主要有余弦相似性、相關(guān)相似性以及歐式距離等),上述與用戶D相似對最高的是用戶A,用戶A對目標(biāo)物品的興趣度為1,就可將目標(biāo)物品推薦給用戶D。
基于item的協(xié)同過濾:指從物品維度上看,根據(jù)用戶對每個物品的興趣度,計算物品間的相似性,可以算出物品b和目標(biāo)物品的相似性最大,用戶D對物品b感興趣,則很可能對目標(biāo)用戶感興趣。
3、基于內(nèi)容的推薦算法
商品為客觀體,提取商品對象的特征,尋找相似度比較大的物品進行推薦。系統(tǒng)首先對物品的屬性進行建模,通過相似度計算,發(fā)現(xiàn)物品A和B相似度較高,或者他們都屬于同類物品。系統(tǒng)還會發(fā)現(xiàn)某用戶喜歡物品A,由此得出結(jié)論,某用戶可能對物品B也感興趣,于是將物品B推薦給該用戶。
基于內(nèi)容的推薦算法比較容易理解,主要用到分類、聚類算法,對用戶興趣可以很好的建模,并通過對物品屬性維度的增加,獲得更好的推薦精度。但是物品的屬性有限,很難得到更多數(shù)據(jù)屬性,且對于部分物品屬性特征提取有時候比較困難,只考慮物品本身的特征,忽略用戶的行為特征,存在一定片面性,對于從未購買物品的新用戶存在冷啟動問題,不能對新用戶進行推薦。
4、基于關(guān)聯(lián)規(guī)則的推薦算法
基于關(guān)聯(lián)規(guī)則的推薦是以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購商品作為規(guī)則頭,規(guī)則體為推薦對象。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性,關(guān)聯(lián)規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品,根據(jù)某種商品所屬的置信度較高的關(guān)聯(lián)規(guī)則,推薦物品。
根據(jù)用戶的購買記錄,提取關(guān)聯(lián)規(guī)則,常用的算法有Apriori算法,為了提取頻繁項集和一定置信度的關(guān)聯(lián)規(guī)則。Apriori算法的主要原則是如果項集A是頻繁的,那么它的子集都是頻繁的。如果項集A是不頻繁的,那么所有包括它的父集都是不頻繁的,簡化頻繁項集的選擇的復(fù)雜度。
5、基于RFM的推薦算法
6、基于人口統(tǒng)計特征的推薦算法
這是最為簡單的一種推薦算法,它只是簡單的根據(jù)系統(tǒng)用戶的基本信息發(fā)現(xiàn)用戶的相關(guān)程度,然后將相似用戶喜愛的其他物品推薦給當(dāng)前用戶。系統(tǒng)首先會根據(jù)用戶的屬性建模,比如用戶的年齡,性別,興趣等信息。根據(jù)這些特征計算用戶間的相似度。比如系統(tǒng)通過計算發(fā)現(xiàn)用戶A和C比較相似。就會把A喜歡的物品推薦給C。
基于人口統(tǒng)計特征推薦算法的優(yōu)勢是不需要歷史數(shù)據(jù),沒有新用戶冷啟動問題,不依賴于物品的屬性,不足是算法比較粗糙,效果很難令人滿意,只適合簡單的推薦。
7、混合推薦算法
融合以上方法,以加權(quán)或者串聯(lián)、并聯(lián)等方式盡心融合。實際應(yīng)用最多的是內(nèi)容推薦和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個推薦預(yù)測結(jié)果,然后用某方法組合其結(jié)果,如加權(quán)、變換、混合、特征組合、層疊、特征擴充、元級別等。組合推薦一個最重要原則就是通過組合后要能避免或彌補各自推薦技術(shù)的弱點。
1)加權(quán)(Weight):加權(quán)多種推薦技術(shù)結(jié)果。
2)變換(Switch):根據(jù)問題背景和實際情況或要求決定變換采用不同的推薦技術(shù)。
3)混合(Mixed):同時采用多種推薦技術(shù)給出多種推薦結(jié)果為用戶提供參考。
4)特征組合(Feature combination):組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法所采用。
5)層疊(Cascade):先用一種推薦技術(shù)產(chǎn)生一種粗糙的推薦結(jié)果,第二種推薦技術(shù)在此推薦結(jié)果的基礎(chǔ)上進一步作出更精確的推薦。
6)特征擴充(Featureaugmentation):一種技術(shù)產(chǎn)生附加的特征信息嵌入到另一種推薦技術(shù)的特征輸入中。
7)元級別(Meta-level):用一種推薦方法產(chǎn)生的模型作為另一種推薦方法的輸入
二、 各種推薦算法的優(yōu)缺點
|
推薦方法 |
優(yōu)點 |
缺點 |
|
協(xié)同過濾推薦 |
新異興趣發(fā)現(xiàn)、不需要領(lǐng)域知識; 隨著時間推移性能提高; 推薦個性化、自動化程度高; 能處理復(fù)雜的非結(jié)構(gòu)化對象 |
稀疏問題; 可擴展性問題; 新用戶問題; 質(zhì)量取決于歷史數(shù)據(jù)集; 系統(tǒng)開始時推薦質(zhì)量差; |
|
基于內(nèi)容推薦 |
推薦結(jié)果直觀,容易解釋; 不需要領(lǐng)域知識 |
新用戶問題; 復(fù)雜屬性不好處理; 要有足夠數(shù)據(jù)構(gòu)造分類器 |
|
基于規(guī)則推薦 |
能發(fā)現(xiàn)新興趣點; 不要領(lǐng)域知識 |
規(guī)則抽取難、耗時; 產(chǎn)品名同義性問題; 個性化程度低; |
|
基于人口統(tǒng)計 |
不需要歷史數(shù)據(jù),沒有冷啟動問題; 不依賴于物品的屬性,因此其他領(lǐng)域的問題都可無縫接入 |
算法比較粗糙,效果很難令人滿意,只適合簡單的推薦 |
三、 推薦算法總結(jié)
鑒于各種推薦算法的優(yōu)缺點和適應(yīng)場景,系統(tǒng)開始與系統(tǒng)成熟時的推薦算法應(yīng)有區(qū)別。系統(tǒng)開始時,用戶數(shù)據(jù)不夠多,交易行為記錄數(shù)據(jù)比較少,倘若利用基于內(nèi)容和協(xié)同過濾的推薦算法存在很多新用戶冷啟動問題。在系統(tǒng)成熟時,用戶交易數(shù)據(jù)較多,部分算法用到矩陣,產(chǎn)生較大的稀疏矩陣數(shù)據(jù),運算量大,需要結(jié)合組合推薦法。總結(jié)B2B電商平臺在系統(tǒng)初和系統(tǒng)成熟時的推薦算法建議:
系統(tǒng)初可使用的推薦方法:
1、基于人口統(tǒng)計、熱搜、瀏覽記錄
基于人口統(tǒng)計的推薦:通過注冊以及詢問得知一些用戶的屬性信息,譬如年齡、居住城市、受教育程度、性別、職業(yè)等等,能夠得到用戶之間屬性的相似度;
熱搜:站內(nèi)熱搜,按排名進行推薦;
基于瀏覽記錄的內(nèi)容的推薦:部分產(chǎn)品的內(nèi)容特征比較好提取,比如帶文字描述的產(chǎn)品,也有內(nèi)容特征比較難提取的,如圖片,或者瀏覽的商品不詳,則需要人工或智能爬取相關(guān)信息。總的來說,這一部分的推薦是基于用戶瀏覽的內(nèi)容,通過提取特征,計算相似度,推薦相似產(chǎn)品(相似產(chǎn)品的推薦精確度可能比較難達到要求,通過提高粒度,進行品類推薦是常見做法)。
2、標(biāo)簽系統(tǒng)
利用標(biāo)簽也只能是提高有少量行為的用戶的推薦準(zhǔn)確性,對于純粹的冷啟動用戶,是沒有幫助的,因為這些人還沒有打過任何標(biāo)簽。系統(tǒng)也可以給商品打上標(biāo)簽,但是這里面沒有個性化的因素,效果會打一個折扣。從這個意義上講,利用標(biāo)簽進行推薦、激勵用戶打標(biāo)簽以及引導(dǎo)用戶選擇合適的標(biāo)簽,都非常重要。引導(dǎo)用戶多打標(biāo)簽,通過標(biāo)簽進行分類推薦也是常用的方法
3、多維數(shù)據(jù)的利用
每個人處于一個巨大的社會網(wǎng)絡(luò)中,在多個網(wǎng)站存在行為數(shù)據(jù),相當(dāng)比例的用戶都具有交叉購物的習(xí)慣,把這些網(wǎng)絡(luò)數(shù)據(jù)整合起來,特別是知道每個節(jié)點身份的對應(yīng)關(guān)系,可以帶來的巨大的社會經(jīng)濟價值。使用‘遷移學(xué)習(xí)法’,可以實現(xiàn)跨領(lǐng)域的推薦。多維數(shù)據(jù)的利用能解決新用戶的冷啟動問題。
神州商橋的用戶來自本來的用戶群的比例應(yīng)該很大,從其它的數(shù)據(jù)接口獲取數(shù)據(jù)源,獲得用戶的基礎(chǔ)信息。
系統(tǒng)成熟時可使用的推薦方法:
1、 協(xié)同過濾推薦法
2、 基于內(nèi)容的推薦法
3、 基于關(guān)聯(lián)規(guī)則,用戶與用戶之間的關(guān)聯(lián),商品與商品之間的關(guān)聯(lián)
4、 組合推薦法(協(xié)同過濾和基于內(nèi)容的推薦的結(jié)合)
這三個推薦法在電商系統(tǒng)成熟時應(yīng)用的比較多,行為數(shù)據(jù)充足使得這些算法的推薦效果比較好,然而在數(shù)據(jù)量級特別大的時候存在數(shù)據(jù)稀疏問題,一般采用的解決辦法是把這些商品信息粗粒化,譬如只考慮一個個的品類,數(shù)據(jù)就會立刻變得稠密。如果能夠計算品類之間的相似性,就可以幫助進行基于品類的推薦。
四、推薦算法評價指標(biāo)
準(zhǔn)確度、多樣性、新穎性和覆蓋率。每一類下轄很多不同的指標(biāo),譬如準(zhǔn)確度指標(biāo)又可以分為四大類,分別是預(yù)測評分準(zhǔn)確度、預(yù)測評分關(guān)聯(lián)、分類準(zhǔn)確度、排序準(zhǔn)確度四類。第二個層次是商業(yè)應(yīng)用上的關(guān)鍵表現(xiàn)指標(biāo),譬如受推薦影響的轉(zhuǎn)化率,購買率,客單價,購買品類數(shù)等等,第三個層次是用戶真實的體驗,注意保護用戶隱私。
總結(jié)
- 上一篇: AMD R7 7700X 处理器海外降至
- 下一篇: 甩掉寂寞APP合集!不看你会后悔的