“猜你喜欢” — 浅谈内容分发中的推荐系统
本文為PMCAFF專欄作者趙知了出品
為什么抖音刷起來(lái)停不下來(lái)?
為什么網(wǎng)易云音樂(lè)總能推薦我喜歡的?
你的愛(ài)好和口味系統(tǒng)到底是怎么猜到的?
內(nèi)容推薦是一個(gè)較為復(fù)雜的模塊,這篇文章先簡(jiǎn)單聊聊基于個(gè)性化推薦的內(nèi)容分發(fā)系統(tǒng)。整體分成五部分,基于之前工作總結(jié)和網(wǎng)上內(nèi)容參考,越寫(xiě)越啰嗦,見(jiàn)諒。
目錄
內(nèi)容推薦與增長(zhǎng)
推薦算法的商業(yè)價(jià)值
興趣偏好
認(rèn)識(shí)推薦算法
從零到一搭建推薦算法
后記?
1
內(nèi)容推薦與增長(zhǎng)
聊個(gè)性化推薦,必須聊到今日頭條。今日頭條的崛起開(kāi)始,標(biāo)志著基于用戶個(gè)性化的內(nèi)容推薦模式成為內(nèi)容分發(fā)不可忽視的力量。
那頭條是如何彎道超車(chē),一舉成為信息分發(fā)領(lǐng)域的巨無(wú)霸呢?首先我們先回顧之前各大新聞客戶端、門(mén)戶是如何組織分發(fā)內(nèi)容的。
編輯生產(chǎn)內(nèi)容——APP/門(mén)戶展示內(nèi)容——用戶閱讀內(nèi)容
評(píng)價(jià)產(chǎn)品,既要看它所帶來(lái)的用戶價(jià)值,又要看它能產(chǎn)生的商業(yè)價(jià)值。以新浪搜狐為代表的的新聞客戶端門(mén)的商業(yè)價(jià)值是什么?
廣告
互聯(lián)網(wǎng)廣告主要分成三種業(yè)務(wù)形式,CPC(按用戶點(diǎn)擊付費(fèi))、CPM(按展示付費(fèi))、CPA(按行為付費(fèi))。這意味著用戶在App上停留時(shí)間越長(zhǎng)、越活躍,越有可能帶來(lái)更多的品牌曝光和廣告點(diǎn)擊。最終為 App 帶來(lái)利潤(rùn)。
因此新聞客戶端的商業(yè)模式和核心目標(biāo)也就清晰了:生產(chǎn)更多的內(nèi)容,讓用戶更持久的留在平臺(tái)中。
如圖,這一個(gè)合理的、正向的循環(huán)。然而在頭條看來(lái),這個(gè)模式依然有不足。不足是什么?
回歸本質(zhì),平臺(tái)內(nèi)容是否有效的滿足了用戶。這里包含兩層意思,一是用戶本身訴求是否滿足;另一層是這種滿足是否覆蓋了足夠多的用戶。
首先,先分析第一點(diǎn):用戶本身訴求是否滿足?
我們思考用戶需求的是什么?用戶們?cè)谧x什么?在讀信息。那信息到底是什么?兩方對(duì)此都有不同的理解,而這種理解決定了發(fā)展方向的不同。新浪們認(rèn)為,信息就是有價(jià)值的內(nèi)容,就是新聞。頭條認(rèn)為,信息就是值得閱讀的內(nèi)容。
兩者有什么差異?
1.對(duì)可讀信息的理解不同
新浪認(rèn)為,可讀信息即是有價(jià)值的新聞。一條信息是否有價(jià)值,能被稱之為新聞,由資深編輯們主導(dǎo),展示由平臺(tái)來(lái)決定。
頭條認(rèn)為,可讀信息就是用戶感興趣的內(nèi)容。有大眾生產(chǎn),也由大眾消費(fèi)。用戶個(gè)體主觀、獨(dú)立決定是否對(duì)這條信息感興趣。
這兩種決策思路,使新浪們的信息總量對(duì)單個(gè)用戶來(lái)說(shuō)是相對(duì)固定的。而對(duì)頭條的單個(gè)用戶來(lái)說(shuō),信息總量無(wú)限多。
2.信息生產(chǎn)成本不同
新浪們,雇傭編輯生產(chǎn)內(nèi)容,保證了內(nèi)容質(zhì)量,但成本相對(duì)高;今日頭條,將內(nèi)容生產(chǎn)權(quán)和消費(fèi)權(quán)交給更廣闊的用戶,自己做好平臺(tái)的內(nèi)容分發(fā)工作就可以。成本遠(yuǎn)低于新浪。
3.最重要的,面向用戶群不同
新浪們,面向?qū)?nèi)容質(zhì)量有一定要求,且訴求明確的群體;今日頭條面向?qū)π畔⒃V求處于初級(jí)階段,對(duì)信息質(zhì)量和標(biāo)準(zhǔn)要求不高的群體。這部分群體更廣大。
基于個(gè)性化的推薦系統(tǒng),頭條內(nèi)容池也可以在同一個(gè)內(nèi)容列表頁(yè)有效滿足了長(zhǎng)尾用戶的多樣性需求。
準(zhǔn)確的產(chǎn)品定位,有效的滿足訴求,廣闊的增長(zhǎng)空間,這是我們?cè)谡剛€(gè)性化推薦給頭條帶來(lái)巨大增長(zhǎng)時(shí)所需要了解的宏觀條件,如果這些條件不具備,無(wú)論多完善的推薦系統(tǒng)也發(fā)揮不出巨大能量。頭條增長(zhǎng)模式值得研究,但可以肯定的是,增長(zhǎng)時(shí)系統(tǒng)工程,不存在一招通殺。重視個(gè)性化推薦,但也不用過(guò)分神化。
2
商業(yè)價(jià)值
談商業(yè)價(jià)值,結(jié)合實(shí)際,以我做過(guò)的醫(yī)美項(xiàng)目為例,醫(yī)美App的盈利模式是什么?
1.引導(dǎo)用戶下單,從訂單中抽傭;
2.引導(dǎo)商戶投放社區(qū)廣告,從效果中獲益。
先談第一點(diǎn),對(duì)醫(yī)美用戶來(lái)說(shuō),從對(duì)某個(gè)項(xiàng)目感興趣到下單,需要非常長(zhǎng)的決策周期(平均3-4周)。對(duì)平臺(tái)來(lái)說(shuō),用戶決策時(shí)間越短,越有利于促進(jìn)訂單轉(zhuǎn)化,從而獲利。
那如何縮短用戶決策時(shí)間呢?
醫(yī)美,全稱醫(yī)療美容。是一個(gè)新興產(chǎn)業(yè),需要進(jìn)行大量用戶教育工作。同時(shí)有很多醫(yī)美用戶或商家在平臺(tái)內(nèi)寫(xiě)了大量整容日記。這些日記具有用戶真實(shí)案例和科普雙重作用,有效降低用戶抵觸心理,消解擔(dān)心。對(duì)幫助用戶決策非常有效。因此需要向這些用戶推薦與他們相關(guān)的內(nèi)容,有利于提升整體訂單轉(zhuǎn)化率,從而提高企業(yè)利潤(rùn)。
再說(shuō)第二點(diǎn),醫(yī)美項(xiàng)目間區(qū)別很大,不同用戶對(duì)項(xiàng)目?jī)?nèi)容訴求差異非常大。一個(gè)想割雙眼皮的用戶很大概率對(duì)隆鼻沒(méi)什么興趣。
所以隆鼻商家廣告展示給雙眼皮用戶沒(méi)有任何價(jià)值。這種低效地投放展示對(duì)平臺(tái)造成資源浪費(fèi),對(duì)用戶來(lái)說(shuō)體驗(yàn)差,商家也不會(huì)買(mǎi)賬,這是三方都是一個(gè)多輸局面。因此提升廣告投放的準(zhǔn)確性,成了多方訴求和趨勢(shì)。
互聯(lián)網(wǎng)產(chǎn)品是信息的集合,它最大的作用是信息分發(fā),而推薦系統(tǒng)正式這個(gè)訴求下最重要影響最深遠(yuǎn)的解決方案。它兼顧每個(gè)用戶,讓信息傳遞更公平、更有效率,這即是它最大的商業(yè)價(jià)值和用戶價(jià)值。
3
興趣偏好
了解推薦算法之前,首先我們認(rèn)識(shí)一個(gè)詞——“用戶偏好”,又稱“感興趣的 xx”。
偏好是什么?是傾向性。用戶偏好指的就是用戶對(duì)某一事物的傾向性。
假設(shè)你喜歡吃冰淇淋,那么在超市琳瑯滿目的商品中,你一定會(huì)多看冰淇淋一眼,也有可能指著冰淇淋問(wèn)價(jià)格,還有可能會(huì)挑挑選選然后購(gòu)買(mǎi),甚至再來(lái)一根。互聯(lián)網(wǎng)產(chǎn)品挖掘用戶偏好的方法簡(jiǎn)單來(lái)說(shuō)也是如此。
我們都知道無(wú)論是網(wǎng)頁(yè)還是APP,用戶在網(wǎng)上的任何操作都會(huì)被記錄下來(lái)。當(dāng)你對(duì)某個(gè)內(nèi)容產(chǎn)生興趣,必然會(huì)有更多的瀏覽點(diǎn)擊,更多的咨詢和購(gòu)買(mǎi)。系統(tǒng)則根據(jù)一套算法計(jì)算用戶行為,對(duì)用戶偏好進(jìn)行分析判斷,判斷你喜歡什么。
還是以醫(yī)美產(chǎn)品為例,平臺(tái)上有各大商家的產(chǎn)品,如雙眼皮、隆鼻、水光針等等很多品類。我們會(huì)統(tǒng)計(jì)用戶在站內(nèi)行為數(shù)據(jù)和并對(duì)不同行為進(jìn)行加權(quán)計(jì)算,最后結(jié)果就是用戶的品類偏好。
比如,瀏覽相關(guān)的帖子、瀏覽商品、將商品加入購(gòu)物車(chē)、下單支付、咨詢商品等行為,為每個(gè)行為賦有權(quán)重。通過(guò)計(jì)算行為頻次再乘以權(quán)重,我們會(huì)得到該用戶對(duì)某類項(xiàng)目的偏好值。再和其他項(xiàng)目偏好值進(jìn)行對(duì)比,值最大的項(xiàng)目就是該用戶最感興趣的項(xiàng)目。
有了用戶偏好特征這個(gè)數(shù)據(jù),我們就解決了用戶可能對(duì)什么感興趣的問(wèn)題,接下來(lái)我們就把相應(yīng)的內(nèi)容推薦給用戶就好了。
這是一個(gè)相對(duì)粗糙,但在產(chǎn)品前期很有效的偏好計(jì)算方法。隨著內(nèi)容豐富度越高,推薦精細(xì)度要求也就越高,這套計(jì)算方法推薦準(zhǔn)確度就會(huì)下降。我們就可以引入推薦系統(tǒng),更系統(tǒng)長(zhǎng)期的改善這個(gè)問(wèn)題。
4
認(rèn)識(shí)推薦系統(tǒng)
相似度計(jì)算
衡量用戶之間、內(nèi)容之間的相似性我們用距離來(lái)刻畫(huà)。距離越小,相似度越高,反之則說(shuō)明相似度越低。常用歐氏距離和余弦距離進(jìn)行度量。由于距離在很多算法中都會(huì)用到,屬于技術(shù)性質(zhì),在這里不多涉及。
常見(jiàn)的推薦系統(tǒng)主要分成三大類。
1.基于人口統(tǒng)計(jì)學(xué)的推薦
用一句話來(lái)說(shuō)就是,系統(tǒng)對(duì)某個(gè)用戶推薦的內(nèi)容,取決于和他相似具有相似特征的用戶喜歡的內(nèi)容。
用戶A 是名女性,年齡介于 18-22 歲,偏好商品A;用戶B 是名男性,年齡介于 30-40 歲,偏好商品B、商品C;用戶C 是名女性,年齡介于 18-22 歲;我們已為每位用戶建立了用戶畫(huà)像,現(xiàn)在我們要給用戶C 進(jìn)行推薦。基于用戶畫(huà)像和合適的距離度量計(jì)算用戶的相似度, 我們發(fā)現(xiàn)用戶A 與用戶C 最相似,可將用戶A偏好的物品A推薦給用戶C。
優(yōu)點(diǎn)
①該推薦算法僅使用用戶的基本信息數(shù)據(jù),不涉及用戶對(duì)物品的歷史偏好數(shù)據(jù),所以對(duì)于新用戶來(lái)說(shuō),只要有他(她)的基本信息就可以進(jìn)行推薦,不存在“冷啟動(dòng)”問(wèn)題;
②該推薦算法在不同的物品領(lǐng)域都可以使用,因?yàn)樗灰蕾囉谖锲沸畔?#xff1b;
缺點(diǎn)
①該推薦算法目前僅基于用戶的基本信息,推薦比較粗糙;
②用戶的基本信息不好獲取,比如年齡、性別、職業(yè)等;在某些情況下,用戶的基本信息也需要通過(guò)建模獲取;
2.基于內(nèi)容的推薦——你喜歡的事物,給你推薦近似的事物
用一句話說(shuō)就是,通過(guò)內(nèi)容的基本信息確認(rèn)內(nèi)容與內(nèi)容間的相似度,再根據(jù)用戶歷史偏好記錄,將相似內(nèi)容推薦給用戶。
用戶A 喜歡電影A,用戶B 喜歡電影B,用戶C 喜歡電影C,通過(guò)分析電影信息標(biāo)簽我們發(fā)現(xiàn)電影A 和電影B 屬于相似影片。所以我們向用戶A 推薦電影B,向用戶B 推薦電影A。
存在問(wèn)題
①數(shù)據(jù)質(zhì)量要求高:該推薦算法依賴于物品或內(nèi)容的描述數(shù)據(jù),描述得越全面、完整,推薦得就越精確;即該算法對(duì)物品內(nèi)容的數(shù)據(jù)質(zhì)量要求較高;
②考慮不全面:該算法僅從物品內(nèi)容本身的特征出發(fā),沒(méi)有考慮到用戶對(duì)物品內(nèi)容的態(tài)度;
③新用戶問(wèn)題:需要基于用戶的歷史偏好信息,所有對(duì)新用戶無(wú)法進(jìn)行推薦;
3.基于協(xié)同過(guò)濾的推薦
①基于用戶的協(xié)同過(guò)濾——和你相似的用戶還喜歡什么?
用戶A 偏好內(nèi)容A,用戶B偏好內(nèi)容A、B、C,用戶C偏好內(nèi)容B、C。
假設(shè)我們要對(duì)用戶C進(jìn)行推薦,通過(guò)相似度計(jì)算,我們發(fā)現(xiàn)發(fā)現(xiàn)用戶C 與用戶B 的距離最小,相似度最高,說(shuō)明他們的偏好一致,可將用戶B 偏好的而用戶C還沒(méi)未接觸的內(nèi)容A 推薦給用戶C。
②基于內(nèi)容的協(xié)同過(guò)濾——買(mǎi)過(guò)這款產(chǎn)品的用戶還買(mǎi)過(guò)什么?
用戶A 偏好內(nèi)容A,用戶B 偏好內(nèi)容B、C,用戶C 偏好內(nèi)容C
假設(shè)我們想推薦內(nèi)容B,基于歐式距離計(jì)算內(nèi)容B 與內(nèi)容A、C之間的距離,發(fā)現(xiàn)內(nèi)容B 與內(nèi)容C 的距離最小,相似性最高,說(shuō)明內(nèi)容B、C比較相似,可能是同類產(chǎn)品,我們可將內(nèi)容B 推薦給喜歡內(nèi)容C 卻還沒(méi)對(duì)內(nèi)容B 表示出偏好的用戶C。
與上面基于內(nèi)容推薦區(qū)別是,前者,基于內(nèi)容推薦更偏向于兩個(gè)內(nèi)容是接近的、相似的,與用戶的行為無(wú)關(guān);后者,與事物是否相似關(guān)系較小,更多與用戶行為有關(guān),存在順承關(guān)系。
基于用戶的協(xié)調(diào)過(guò)濾和基于物品的協(xié)同過(guò)濾都能達(dá)到不錯(cuò)的效果,前者是先找相似的人,再找相似的人喜歡的物品;后者則是找到和某個(gè)物品相關(guān)的物品。兩者在實(shí)際應(yīng)用上有一定的區(qū)別。
如果是電商平臺(tái),商品信息相對(duì)穩(wěn)定,在這種情況下基于物品的協(xié)同過(guò)濾算法更合適,不僅實(shí)時(shí)計(jì)算壓力小,且不用頻繁更新;
如果是一個(gè)新聞或者是內(nèi)容網(wǎng)站,內(nèi)容數(shù)據(jù)偏多且不斷更新,用戶規(guī)模大。造成內(nèi)容重疊度低,特征變化快,再計(jì)算內(nèi)容相似度,計(jì)算更復(fù)雜。可采用基于用戶的協(xié)同過(guò)濾。從計(jì)算的復(fù)雜度來(lái)講,這兩個(gè)算法各有優(yōu)勢(shì),我們要根據(jù)不同場(chǎng)景的特點(diǎn)去選擇。
在實(shí)際應(yīng)用中,一般不會(huì)只采用某一種推薦算法,而是將各個(gè)推薦算法進(jìn)行組合。這方面更多是技術(shù)算法策略問(wèn)題。
5
從零搭建推薦系統(tǒng)
如果我們想搭建個(gè)性化的內(nèi)容推薦系統(tǒng)要考慮哪些問(wèn)題?
首先最重要的評(píng)估這件事
1.宏觀大盤(pán),如開(kāi)頭提到,今日頭條產(chǎn)品面向的人群比其他新聞客戶端更大,有著更為精準(zhǔn)的產(chǎn)品定位和用戶增長(zhǎng)空間,而推薦系統(tǒng)解決了信息分發(fā)效率問(wèn)題,為今日頭條的崛起插上了翅膀。所以在開(kāi)始搭建之前要明確推薦系統(tǒng)給產(chǎn)品帶來(lái)了哪些用戶價(jià)值和商業(yè)價(jià)值,否則很難調(diào)動(dòng)大量人員參與到這個(gè)項(xiàng)目中。
2.自身儲(chǔ)備。做推薦,需要大量的內(nèi)容庫(kù)和用戶樣本、結(jié)構(gòu)化的標(biāo)簽數(shù)據(jù)和強(qiáng)大的算力。三者少一個(gè)都支撐不了推薦系統(tǒng)。
其次,衡量推薦系統(tǒng)的作用
非常認(rèn)可一句話,如果你無(wú)法衡量它,你就無(wú)法有效增長(zhǎng)它。我們要明確這件事的核心目的,核心指標(biāo)、相關(guān)性指標(biāo)分別是什么?
回到醫(yī)美App日記內(nèi)容推薦中分析。我們做推薦,核心目的:縮短用戶決策時(shí)間,提升訂單量。因此訂單量是核心衡量指標(biāo)。
由于在成單路徑上,受到很多因素影響,我們要找到與推薦系統(tǒng)最相關(guān)的指標(biāo)。我梳理了一個(gè)簡(jiǎn)單用戶行為路徑。
從上面我們可以看出,推薦系統(tǒng)相關(guān)性指標(biāo)分別是,日記點(diǎn)擊率、次日留存、閱讀篇數(shù)、商品詳情頁(yè)穿透率、停留時(shí)長(zhǎng)。參考這些指標(biāo),有利于我們對(duì)推薦系統(tǒng)的實(shí)際效果進(jìn)行評(píng)估。
除了指標(biāo)數(shù)據(jù)外,不同維度的數(shù)據(jù)(如feed流的數(shù)據(jù)規(guī)律、分層用戶的數(shù)據(jù)表現(xiàn))也要注意挖掘提煉和分析。
第三,真正開(kāi)始設(shè)計(jì)搭建推薦系統(tǒng)。
內(nèi)容推薦的搭建主要分成三個(gè)模塊,分別是內(nèi)容模塊、用戶模塊、分發(fā)模塊。
內(nèi)容模塊:
1.對(duì)要儲(chǔ)備足夠大量的內(nèi)容,建立內(nèi)容分發(fā)池。無(wú)論是人工生產(chǎn)還是爬蟲(chóng)抓取,足夠多的內(nèi)容庫(kù)是內(nèi)容分發(fā)的基礎(chǔ)。
2.對(duì)內(nèi)容進(jìn)行結(jié)構(gòu)化處理。從標(biāo)簽、分類、維度等角度建立標(biāo)簽(Tag)。根據(jù)實(shí)際情況的不同,分類的顆粒度也會(huì)有差異。理論上Tag越準(zhǔn)確越豐富,推薦效果越好。維度設(shè)計(jì)除基本屬性類別作為標(biāo)簽,前期也可以開(kāi)放部分打標(biāo)簽的權(quán)限給用戶,允許自主分類,發(fā)現(xiàn)用戶需求,使標(biāo)簽更貼合用戶。當(dāng)然注意標(biāo)簽維度更新頻率要低。
用戶模塊:
1.對(duì)用戶畫(huà)像。通過(guò)用戶自填、功能設(shè)計(jì)、系統(tǒng)抓取等方式收集梳理用戶必要信息,如性別、年齡等,對(duì)不同用戶的群體特征進(jìn)行打標(biāo)簽,通過(guò)對(duì)標(biāo)簽的分類聚合形成一個(gè)個(gè)不同層次的用戶畫(huà)像。
2.用戶行為數(shù)據(jù),通過(guò)埋點(diǎn),收集分析用戶站內(nèi)行為,發(fā)現(xiàn)用戶偏好,分析用戶對(duì)內(nèi)容的消費(fèi)行為和反饋。
分發(fā)模塊:
1.確定推薦策略和推薦模型,這個(gè)主要是產(chǎn)品參與,技術(shù)主導(dǎo)。
2.進(jìn)行內(nèi)容展示的功能、交互和反饋設(shè)計(jì)。通過(guò)功能層對(duì)初期的推薦系統(tǒng)在分發(fā)方式上進(jìn)行合理補(bǔ)充。
最后,當(dāng)一切就緒后,就可以準(zhǔn)備上線了。我們可以通過(guò)A&B測(cè)試的方式,建立對(duì)照組,評(píng)估我們的推薦系統(tǒng)是否有效帶來(lái)了增長(zhǎng),是否顯著拉動(dòng)了相關(guān)指標(biāo)尤其是核心指標(biāo)。AB測(cè)試能夠?yàn)槲覀冊(cè)诤笮柰扑]系統(tǒng)的迭代優(yōu)化中,起到非常重要的幫助。
至此,相對(duì)簡(jiǎn)單的推薦系統(tǒng)就搭建好了。
6
后記
推薦系統(tǒng)是非常純粹互聯(lián)網(wǎng)產(chǎn)物,它專注解決兩個(gè)問(wèn)題,一是如何向用戶推薦他感興趣的內(nèi)容;二是如何發(fā)現(xiàn)用戶更可能感興趣的。隨著各大公司對(duì)推薦算法研究深入,推薦準(zhǔn)確度會(huì)不斷提高。但同時(shí),隨著用戶整體認(rèn)知水平不斷提高,對(duì)信息質(zhì)量的訴求也會(huì)逐漸豐富,這種豐富會(huì)倒逼內(nèi)容分發(fā)更具多樣性。我相信,信息分發(fā)領(lǐng)域永遠(yuǎn)不存在一家獨(dú)大,永遠(yuǎn)都有可能誕生出潛力無(wú)限的偉大公司。
我曾經(jīng)非常喜歡推薦系統(tǒng),因?yàn)樗粌H具備多重價(jià)值,還擁有某種社會(huì)意義。它讓信息更公平,每個(gè)人擁有信息閱讀的權(quán)利,間接促進(jìn)了社會(huì)公平。但是,推薦系統(tǒng)走向了彎路,它圍繞用戶編制了巨大的信息網(wǎng),讓用戶無(wú)法跳出去看問(wèn)題。這種信息繭房,營(yíng)造了短暫的信息滿足,限制了用戶探索的欲望,讓大眾認(rèn)知更局限,更偏激。
當(dāng)然沒(méi)有東西是完美的,推薦系統(tǒng)也在不斷迭代,在臺(tái)前幕后,不斷試圖了解我們的內(nèi)心和情感,像親人,也像魔鬼。
我也曾感動(dòng)于系統(tǒng)如此懂我,但卻時(shí)常懷念,曾經(jīng)去跑到地?cái)偳百I(mǎi)份報(bào)紙讀半天的自己。
總結(jié)
以上是生活随笔為你收集整理的“猜你喜欢” — 浅谈内容分发中的推荐系统的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何增加儿童产品中的趣味性?
- 下一篇: 物流运输系统设计浅谈