深入浅出理解神经网络召回模型的优势
?
手機中的 App 每天為用戶提供海量的信息和資訊,而個性化的推薦方式猶如一條準繩,把用戶的興趣點和期待感與平臺串聯,迅速優化用戶體驗。
神策推薦作為一款基于用戶行為分析的全流程智能推薦產品,在提升用戶體驗、促活促留存、提升核心業務指標、提高 IT 的投入產出比等方面擁有極大的價值意義。本文將從神策推薦之深度學習模型的角度出發,分享推薦模型中的奧秘與優勢。
目前,幾種較為流行的推薦方式,下面為大家介紹一二。
一、人人推薦
就是從人口統計學的角度出發,根據人與人之間的行為相似程度,來為用戶做出推薦。在這里舉個例子:
小張,女,25 歲,由于在春晚里看到了在眾人中獨自穿黑色西褲唱歌的吳磊,被特立獨行的氣質吸引,遂在某電商平臺上瀏覽并搜索了許多與吳磊相關的周邊,最終下單購買了吳磊的新版簽名寫真一本。
小李,女,19 歲,同樣在春晚中看到了新生演員吳磊,又覺得和自己年齡相仿,同樣在該電商平臺下單一本吳磊的最新版簽名寫真。在逛的同時又想起了說相聲的岳云鵬,于是又下單一套小岳岳的最新相聲選。
當 25 歲的小趙在平臺搜索吳磊相關的周邊時,由于小趙的基本信息與小張相似,于是平臺就向她推薦了和小張一樣的最新版簽名寫真。
這就是基于人與人之間的推薦方式,首先找到和小張有相似喜好與興趣的用戶群體,接著把這個“興趣”推給像小張一樣的小趙。
但一個很現實的問題在于,在推薦的時候還要剔除掉小趙已有的興趣產品,如果說小趙本身已經擁有了一本吳磊的新版簽名寫真,那么她對平臺給她推薦的這款產品可能就會嗤之以鼻。另外,用戶并不擁有單一的產品興趣點,當興趣點與偏好足夠多且復雜時,靠相似人群的推薦方式可能就不那么科學和合適。
二、物物推薦
物物推薦,即與上述的“人”的特性無關,只通過“物”與“物”之間的方式傳遞推薦信息。同樣,舉個方便理解的例子:
小 A,喜愛看《瑯琊榜》,該劇的標簽為:劇情,古裝,正午陽光。
同時,他又熱衷于看美劇《黑色童話》,該劇的標簽為:驚悚,現代,美劇。
于是,當《知否知否應是綠肥紅瘦》出現的時候,平臺就把該劇推薦給了小 A,因為《知否知否應是綠肥紅瘦》的標簽為:劇情,古裝,正午陽光。與他喜歡的《瑯琊榜》相似,應該會比較符合小?A 的口味。
這樣的推薦方式需要十分了解“物品”的標簽,對于標簽的產生源與準確性同樣存在一些不可避免的問題。引用神策數據架構師房東雨在神策 2018 數據驅動大會現場的發言內容,此類推薦方式存在的缺點如下:
1. 標簽的粒度如果很粗,推薦結果將受影響。
2. 不同標簽的產生者會對標簽賦予不同的含義,運營、用戶、機器等標簽的產生方式都會對推薦結果造成影響。
3. 因為規則量化不準確,會產生拍腦袋做決定的現象。
4. 探索性和擴展性受到標簽的限制。假如小 A 觀看的視頻平臺中沒有“正午陽光”這個標簽,那么這樣的劇就會被劃到其他的類別中。
不管是人人推薦,還是物物推薦,我們都可以將其歸類在協同過濾的推薦方式中,協同過濾的推薦方法以興趣為根據,不需要人工進行標簽的檢查和更新,盡管面臨冷啟動困難等問題,但其仍是目前較為有效的推薦方法之一。
詳細信息可參考原文《神策數據房東雨:精準推薦的場景和實踐》。
三、科學合理的神策推薦之深度學習模型
在對目前的推薦體系進行深度研究之后,深度學習召回模型擁有更科學的技術支撐和更合理的推薦方式,其優勢性較為突出。
圖片來源:谷歌發布的《Deep Neural Networks for YouTube Recommendations 》論文
首先,神策推薦的結果分為兩個階段,召回和排序,其實很好理解。
第一,召回,以內容類產品為例。在平臺浩如煙海的文章中,為了使用戶對平臺產生強大的粘性,第一步就要先為平臺用戶召回一些他可能感興趣的內容。神策推薦一天可為用戶推薦的文章量級為 10 萬篇,10 萬篇文章可能橫跨十幾個類別,如體育、歷史、娛樂、政治、社會等,當我們發現一名用戶對“體育”和“歷史”類的文章非常感興趣后,在召回階段就會將該用戶不感興趣的類別過濾掉。
第二,排序。當我們帶領用戶進行完召回階段之后,接著會通過機器學習的方法對每一篇文章進行點擊的預估,之后利用更多的特征和更多的數據去完成排序這件事情。
我們可以根據興趣召回或者根據熱門事件召回一些內容,而不同的召回方法并不是有序存在的,需要通過排序的方式對其進行整理。當然,它仍要基于數據的準確采集以及整合。
其次,深度學習召回模型相比協同過濾等其他推薦方式,存在較為明顯的優勢。
優勢 1——更全面的行為表達
神策推薦所采用的深度學習方式能夠更加全面地表達用戶的行為。在傳統的協同過濾中,大多依賴于用戶的點擊行為,對于用戶沒有點擊的部分,幾乎不能對其進行一些整合和分析,舉一個簡單的電商場景實例。
比如,用戶小王在情節人前夕在某電商平臺中搜索玫瑰花,之后頁面彈出許多玫瑰花的信息,但正當小王準備點開第二行第三列的某個品牌的玫瑰花商品詳情時,突然接到領導的開會通知,便迅速拿起筆記本去參加會議。
在這個案例中,小王只是進行了搜索,并沒有點擊任何玫瑰花產品相關的內容,如果運用傳統的協同過濾方式,沒辦法在后續的推薦中對用戶沒有產生點擊行為的產品進行推薦。而深度學習召回模型可以考慮到用戶的搜索情況,當小王搜索了玫瑰花之后,就能接收到類似“小王準備購買玫瑰花”的信息。深度學習模型能夠更全面地表達用戶的相關行為,它用足夠大的拓展度的韌性去為推薦市場發揮自己的優勢。
優勢 2——可添加畫像特征
可添加畫像特征指的是,深度學習模型可以融合一些與用戶相關的年齡、性別、地域等屬性特征,把這些額外的標簽聚合到模型中去。舉一個簡單的電商場景實例。
電商平臺每天除了給老客戶推薦各類產品之外,不能忘記還有一批人群——新注冊用戶。假設我們知道用戶的性別,即使他們從未在平臺上發生過相關購買行為,那么也能根據他們的畫像標簽進行相關產品的推薦,比如為女性推薦化妝品,為男性推薦籃球鞋等,這是傳統的物物推薦無法做到的。
優勢 3——包含行為順序
盡管我們做了召回,但并不代表只要最終結果符合用戶的相關偏好,我們就可以對其進行推送。舉一個視頻平臺的場景實例。
當用戶小 A 在平臺看完《知否知否應是綠肥紅瘦》的第 15 集后,她更愿意看到平臺為她推送第 16 集的內容,而不是第 3 集或第 22 集。
神策推薦行為順序相關的學習能力,在邏輯上與用戶保持一致性,它的整體表達能力將比傳統的推薦模式更為優秀與合理。
優勢 4——組合復雜特征
神經網絡可以進行更復雜的特征組合,挖掘更深層次的關聯關系,當試圖尋找用戶的特性以及其相關行為背后的蛛絲馬跡時,神策推薦的數學化的語言和思路將是優選,這是協同過濾無法完成的任務與無法達到的高度。
第三,根據客戶的需求方向,神策推薦根據數據算法可提供 3 種優質的排序模型。
在上述?3?種排序模型當中,后兩種為深度學習模型,但這并非意味著越復雜的模型對客戶的使用價值就越大。神策推薦根據客戶的方案與需求,以及機器配置和技術能力,圍繞對方數據采集、建模、分析、反饋的閉環流程,緊貼客戶業務實踐,完成排序模型的搭建與使用。
在數據方面,神策推薦基于神策分析大、全、細、時四個維度采集數據,保證用戶數據的全端采集,以及標簽體系和用戶畫像的建立,依托神策分析強大的數據采集與分析功能,從根源上保證數據的準確性與時效性。
在算法方面,神策推薦擁有豐富的算法建模經驗,同時可實時進行數據反饋,并根據算法結果對模型進行有效迭代。并且,強大的多指標分析能力將會從底層開始助力企業核心業務指標的提升。
在安全層面,神策推薦系統提供私有化部署方案,科學智能的部署方式保證各項用戶行為數據的安全可信,同時,神策推薦遵守互聯網大數據中安全的安全規則,為用戶數據安全提供保障。
在行業發展層面,神策推薦系統秉承神策數據一貫的開放性,將開源的“白盒”概念放在人人可近觀討論的桌面之上,相比傳統的數據黑盒,開放包容的空杯心態將持續推動推薦系統的優化迭代以及行業的迅速發展。
四、深度學習召回模型下的“冷啟動不冷”
在推薦的相關事項當中,冷啟動一直是一個逃不開的話題,冷啟動之所以難啟,中心問題大多集中在新用戶并沒有任何行為使用痕跡。通常的解決方式比如依靠人口統計學信息,對相關屬性的用戶進行不同類別的推薦,或是在新用戶的初始頁面放入各類興趣按鈕,供用戶選擇。
除此之外,神策推薦的冷啟動圍繞“新用戶”和“新內容”兩方面,進行解決。
在內容層面,以新聞資訊為例,可利用自然語言處理技術去做個性化規劃,針對資訊類的文本內容完成個性化推薦。
在用戶層面,在客戶擁有外部數據的情況下,比如用戶申請注冊時填寫的相關信息等,神策推薦可將這類信息做深度的整合與關聯,挖掘內部相關性,與最終推薦結果進行關聯。例如,當外部數據顯示該用戶手機中裝有多款旅行 App 時,那在進行推薦結果的計算與分析時,可能就會向游記、攻略等內容靠攏。
而當沒有外部數據的情況時,根據客戶本身的需求,神策推薦可提供個性化的推薦方案,客戶的需求包括但不限于用戶類別、用戶層級、用戶屬性占比等。綜合考慮平臺用戶的多樣性與大眾性,助力企業平臺的全景戰略規劃。
盡管深度學習召回模型的算法模式優勢顯著,但若想讓深度學習充分發揮其該有的萬丈光芒,還需在基礎數據上做足功夫。
首先,充分保證數據的準確性。神策分析為神策推薦提供扎實的數據采集與分析能力,立足全局的全埋點為數據的深挖與分析提供良好的保障。“重分析,輕采集”是許多從業者的通病,以偏概全地執著于某種埋點方式,以及雜亂無序的采集方式,都注定會將后期的演進與發展變成虛無縹緲的空中樓閣,即使擁有強有力的技術團隊,也無法將深度學習模型的精髓落地于業務實踐。
其次,業務需求與深度學習模型的契合對接。深度學習模型與業務需求的完美結合,直接關系到推薦業務對用戶實際意義的價值大小,業務需求和數據模型搭建的無縫轉譯,是數據驅動業務結果的關鍵環節,更是基于客戶的業務客觀條件、設備處理能力、資源投入的現實考慮。
最后,良好的技術能力是系統性整合的支撐。常見的推薦模型與分析思路在形式上和初始理念上都擁有極大的共通性,評價在這些共性模式狀態下展開的線條是否流暢,很大程度關乎技術人員的實力及問題處理水平,模型是否能表達用戶的實際價值,以及是否能真正驅動業務。
更多互聯網干貨和案例,可關注【神策數據】公眾號了解~
總結
以上是生活随笔為你收集整理的深入浅出理解神经网络召回模型的优势的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 页面浏览事件之 $AppViewScre
- 下一篇: 神策数据 VP 张涛:个性化推荐从入门到