深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路
http://www.infoq.com/cn/articles/depth-learning-build-accurate-recommendation-system
導(dǎo)語
這是一個(gè)AI+的時(shí)代。
作為線上+線下的電商零售平臺(tái),國美互聯(lián)網(wǎng)如何將人工智能技術(shù)嵌入到實(shí)際業(yè)務(wù)中?機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)為國美帶來了哪些改變?在這火熱的時(shí)局中,國美未來在前沿技術(shù)方面又將如何布局?且聽下文一一分解。
正文
今年機(jī)器學(xué)習(xí)已然成為炙手可熱的技術(shù)話題。深度學(xué)習(xí)與人工智能技術(shù)正在改變?nèi)藗兊纳?#xff0c;同時(shí)也給企業(yè)管理大量數(shù)據(jù)、為用戶提供更精準(zhǔn)的服務(wù)提供了一些新的思路和嘗試的方向。越來越多的企業(yè)開始嘗試將機(jī)器學(xué)習(xí)引入原有的大數(shù)據(jù)平臺(tái)和框架中,并將公司業(yè)務(wù)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)相結(jié)合以尋求更優(yōu)的業(yè)務(wù)價(jià)值。
2016年11月國美互聯(lián)網(wǎng)板塊所屬國美在線、美信、國美管家、GOME酒窖、國美海外購整合組建國美互聯(lián)網(wǎng)生態(tài)(分享)科技公司(下面簡稱國美互聯(lián)網(wǎng)),并推出了國美Plus APP。作為具備線上線下雙重基因的新零售平臺(tái),國美互聯(lián)網(wǎng)近年來,針對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)與社交電商業(yè)務(wù)相結(jié)合進(jìn)行了一系列嘗試和創(chuàng)新。這次我們非常有幸對(duì)國美互聯(lián)網(wǎng)大數(shù)據(jù)中心的副總監(jiān)楊驥進(jìn)行了采訪,目前他主要負(fù)責(zé)搜索、推薦和深度學(xué)習(xí)三個(gè)方向的研發(fā)工作及團(tuán)隊(duì)管理。作為國美互聯(lián)網(wǎng)個(gè)性化推薦團(tuán)隊(duì)和算法架構(gòu)平臺(tái)建設(shè)者,楊驥與我們分享了國美互聯(lián)網(wǎng)在機(jī)器學(xué)習(xí)技術(shù)之路上的嘗試、挑戰(zhàn)與收獲。
國美大數(shù)據(jù)中心背景
國美互聯(lián)網(wǎng)大數(shù)據(jù)中心主要負(fù)責(zé)大數(shù)據(jù)平臺(tái)運(yùn)維、大數(shù)據(jù)應(yīng)用、BI、搜索、推薦等相關(guān)內(nèi)容,支撐國美互聯(lián)網(wǎng)全業(yè)務(wù)線(包括大家電、百貨、汽車等)的精準(zhǔn)營銷和數(shù)據(jù)變現(xiàn)。尤其是最近幾年以來,中心在機(jī)器學(xué)習(xí)方面投入了非常多的資源,除了升級(jí)推薦和搜索相關(guān)的機(jī)器學(xué)習(xí)算法之外,還陸續(xù)推出了“國美拍照購”、“圖像相似推薦”、“圖像搭配推薦”等基于深度學(xué)習(xí)算法的產(chǎn)品。
國美個(gè)性化推薦系統(tǒng)面面觀
對(duì)于電商來說,個(gè)性化推薦系統(tǒng)是不可或缺的利器,也是國美互聯(lián)網(wǎng)應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的主要戰(zhàn)場(chǎng)。
推薦系統(tǒng)演進(jìn)之路
要將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到實(shí)際產(chǎn)品中,必然離不開一套良好的算法和平臺(tái)架構(gòu)。2016年3月楊驥加入國美之后,對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法以及線上服務(wù)架構(gòu)進(jìn)行重構(gòu),打造了全新的個(gè)性化推薦系統(tǒng)。目前,楊驥帶領(lǐng)團(tuán)隊(duì)已經(jīng)完成了三輪大規(guī)模的架構(gòu)升級(jí),最終實(shí)現(xiàn)了一套完整的推薦系統(tǒng)架構(gòu),其中包括機(jī)器學(xué)習(xí)和深度學(xué)習(xí)計(jì)算平臺(tái),并整合了A/B測(cè)試、線上部署和自動(dòng)化監(jiān)測(cè)等功能。
系統(tǒng)架構(gòu)和流程
下面是國美互聯(lián)網(wǎng)應(yīng)用Learning to Rank(機(jī)器學(xué)習(xí)排序,L2R)后的推薦系統(tǒng)流程圖和架構(gòu)圖。采用的工具包括Apache Storm、Kafka、Spark、Flink等。
當(dāng)用戶在網(wǎng)站或者APP上看到“猜你喜歡”的商品后進(jìn)行了點(diǎn)擊。一方面,該點(diǎn)擊信息通過實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)反饋給排序引擎和在線訓(xùn)練模型,幫助推薦系統(tǒng)實(shí)時(shí)調(diào)優(yōu);另一方面,點(diǎn)擊信息進(jìn)入Log。基于Log進(jìn)行知識(shí)挖掘,獲取相關(guān)特征和訓(xùn)練數(shù)據(jù),并進(jìn)行基礎(chǔ)推薦模型的計(jì)算(如關(guān)聯(lián)規(guī)則和協(xié)同過濾模型等)以及離線排序模型的訓(xùn)練。離線排序模型緩存到Redis模型服務(wù)器,而相關(guān)特征數(shù)據(jù)、基礎(chǔ)推薦模型的粗篩結(jié)果緩存到Hbase和Redis數(shù)據(jù)服務(wù)器。
系統(tǒng)要向用戶展示推薦商品時(shí),數(shù)據(jù)獲取模塊獲得用戶的基本特征和推薦的初篩結(jié)果,進(jìn)行交互特征和在線特征的計(jì)算,然后利用離線模型、在線模型以及業(yè)務(wù)規(guī)則進(jìn)行最終的篩選與排序,返回最終推薦結(jié)果給用戶。
數(shù)據(jù)收集和清理
國美使用Apache Kafka和Apache Storm系統(tǒng)收集和處理推薦展位上的實(shí)時(shí)數(shù)據(jù)消息,包括推薦展位每頁已經(jīng)展示過什么商品、用戶點(diǎn)擊了什么商品等。然后對(duì)這些數(shù)據(jù)消息進(jìn)行實(shí)時(shí)分析和統(tǒng)計(jì),包括用戶在推薦展位展示之前已經(jīng)對(duì)哪些品類的產(chǎn)品有過購買行為,對(duì)不同的已購買商品賦予不同的權(quán)重(比如手機(jī)買過則短期不會(huì)再買,紙巾則會(huì)隔較短時(shí)間反復(fù)購買),再計(jì)算出接下來的推薦展位應(yīng)該顯示哪些商品。
對(duì)于一些特殊的用戶數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清理,以免影響算法模型的擬合效果。比如,已購買用戶對(duì)同一商品的點(diǎn)擊和查看對(duì)推薦排序模型是無用的,應(yīng)該被排除;還有一些用戶頻繁地點(diǎn)擊商品但卻不下單,被稱為“點(diǎn)擊狂人”,可以通過統(tǒng)計(jì)方法將其剔除。
離線模型+在線學(xué)習(xí)
國美互聯(lián)網(wǎng)的推薦系統(tǒng)中離線模型和在線學(xué)習(xí)相輔相成。
離線模型主要是為了節(jié)省計(jì)算時(shí)間、加快響應(yīng)速度,當(dāng)然需要消耗一些緩存空間并犧牲一定的精度。例如,召回模型中會(huì)預(yù)置一些算法模型,并根據(jù)快照信息離線進(jìn)行商品的初篩,使進(jìn)入實(shí)時(shí)排序模型的商品量從千萬級(jí)別減少為數(shù)百個(gè),大大提高了實(shí)時(shí)排序的效率。目前國美互聯(lián)網(wǎng)的召回模型中有20-30個(gè)算法模型,既保證了召回的多樣性,也不至于給維護(hù)帶來太多麻煩。
而在線學(xué)習(xí)則是為了提高排序的準(zhǔn)確度,它能根據(jù)用戶實(shí)時(shí)的行為數(shù)據(jù)對(duì)模型進(jìn)行實(shí)時(shí)訓(xùn)練,使當(dāng)前模型準(zhǔn)確地反應(yīng)用戶當(dāng)下的興趣和傾向。但是使用在線學(xué)習(xí)也會(huì)引入新問題,比如在電商店慶日,用戶的購買行為可能是非理性的,如果一味地使用在線學(xué)習(xí)將會(huì)給算法模型引入嚴(yán)重的偏差,因此國美的推薦系統(tǒng)會(huì)定期(每天或每隔幾個(gè)小時(shí))使用離線數(shù)據(jù)進(jìn)行模型訓(xùn)練并對(duì)在線模型進(jìn)行校準(zhǔn)。
用戶畫像
對(duì)于電商來說,內(nèi)部收集到的用戶數(shù)據(jù)用來做用戶畫像肯定不如社交類網(wǎng)站的數(shù)據(jù)豐富,可能導(dǎo)致做出來的用戶畫像不夠立體。因此國美互聯(lián)網(wǎng)通過將用戶行為映射到商品信息上來構(gòu)建用戶畫像。比如用戶行為(點(diǎn)擊、關(guān)注或收藏等)涉及的一系列商品的屬性(比如品類、品牌、中心詞、價(jià)格等)作為用戶行為的映射,刻畫出用戶感興趣的商品,然后再結(jié)合用戶標(biāo)簽(比如有車一族、戶外運(yùn)動(dòng)愛好者等),完成用戶畫像的構(gòu)建。目前用戶畫像在國美互聯(lián)網(wǎng)主要用于商品召回和最終商品推薦時(shí)的過濾。
算法評(píng)測(cè)
對(duì)于個(gè)性化推薦排序來說,設(shè)定可量化的目標(biāo)是非常重要的。
國美對(duì)算法的評(píng)估方式包括離線評(píng)測(cè)、在線A/B測(cè)試和算法覆蓋率測(cè)試。離線評(píng)測(cè)常用的評(píng)估指標(biāo)為AUC、Logloss和NDCG,其中AUC和Logloss主要評(píng)估分類的準(zhǔn)確率,而NDCG則是評(píng)估排序質(zhì)量的指標(biāo)。
實(shí)際效果
國美互聯(lián)網(wǎng)采用CTR/CVR/GMV來對(duì)推薦排序算法的實(shí)際效果進(jìn)行評(píng)估。與傳統(tǒng)的推薦方法相比,使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)后的個(gè)性化推薦排序給國美互聯(lián)網(wǎng)的GMV、點(diǎn)擊率和轉(zhuǎn)化率都帶來了更為顯著的提升。
2017年以來,憑借深度學(xué)習(xí)技術(shù),離線模型和實(shí)時(shí)排序模型的質(zhì)量大幅提升,尤其是1-5月份與2016年1-5月份相比提升效果十分顯著,推薦GMV提升70%、參與轉(zhuǎn)化率CVR提升100%。而CTR也有一組數(shù)據(jù)可供參考,采用個(gè)性化排序后,PC訂單頁“猜你喜歡”展位CTR提升幅度30.79%,PC首頁“猜你喜歡”展位CTR提升幅度14.16%。
大數(shù)據(jù)+機(jī)器學(xué)習(xí)&深度學(xué)習(xí)技術(shù)的力量著實(shí)驚人。
深度學(xué)習(xí)在國美的應(yīng)用實(shí)踐
自 2012 年ImageNet大賽技驚四座后,深度學(xué)習(xí)已經(jīng)成為近年來機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中關(guān)注度最高的技術(shù)。
國美Plus拍照購
國美互聯(lián)網(wǎng)也展開了深度學(xué)習(xí)在圖像識(shí)別中的研究,并且已經(jīng)應(yīng)用于國美Plus的拍照購功能,它可以根據(jù)用戶上傳的圖片預(yù)測(cè)品類,推薦相關(guān)商品。
(點(diǎn)擊放大圖像)
當(dāng)用戶拍照或者從PC和手機(jī)選取商品圖片上傳成功以后,系統(tǒng)就會(huì)進(jìn)行特征向量的計(jì)算及匹配。然后猜測(cè)用戶想要的商品,根據(jù)商品圖片庫的相關(guān)結(jié)果進(jìn)行展示。
(點(diǎn)擊放大圖像)
圖像檢索流程可以分為四步,分別是圖像標(biāo)注、提取特征、降維和匹配檢索。
- 圖像標(biāo)注:對(duì)國美全站的商品圖像進(jìn)行標(biāo)注,最主要的工作是數(shù)據(jù)清洗,即把不能和品類對(duì)應(yīng)的圖片刪除或者重新進(jìn)行品類校準(zhǔn);先統(tǒng)計(jì)國美全站最近一年內(nèi)各品類下商品總數(shù)的分布,然后按照分布進(jìn)行圖片抽樣。
- 提取特征:圖片的特征分為通過深度學(xué)習(xí)得到的特征和圖像局部特征。可利用caffe對(duì)CNN進(jìn)行訓(xùn)練,將倒數(shù)第二層輸出作為 Feature Learning 的結(jié)果提取出來(Deep Learning + Transfer Learning);可利用局部特征算子(SIFT、kaze等)提取出圖像的局部特征。
- 降維:用積量化等方法對(duì)深度學(xué)習(xí)特征和圖像局部特征進(jìn)行編碼和降維。
- 匹配檢索:采用最近鄰搜索的方法找出每一個(gè)商品的相似商品集合。
圖像識(shí)別與推薦
基于拍照購,國美還將圖像識(shí)別融合到了個(gè)性化推薦、相似推薦和搭配購?fù)扑]中。
用戶行為+商品內(nèi)容=更精確的推薦
楊驥認(rèn)為,電商領(lǐng)域傳統(tǒng)的基于用戶行為構(gòu)建個(gè)性化推薦系統(tǒng)存在一定的局限性。
基于用戶行為的推薦系統(tǒng)以用戶的瀏覽、點(diǎn)擊、收藏、關(guān)注、加入購物車、下單等行為作為數(shù)據(jù)基礎(chǔ),來分析用戶可能的購物傾向。對(duì)于用戶來說,從進(jìn)入網(wǎng)站或APP開始瀏覽商品、到考慮是否購買、最終到下單是一個(gè)連續(xù)的過程,但對(duì)于算法工程師來說得到的只是日志中幾個(gè)離散的記錄,信息量嚴(yán)重不足,通過這些有限的信息難以推測(cè)用戶完整的購物決策過程。楊驥認(rèn)為,除了用戶行為,還應(yīng)該重點(diǎn)考慮商品的內(nèi)容(比如商品信息主圖、商品詳情頁圖片、標(biāo)題、廣告用語和風(fēng)格等)能夠?qū)τ脩舢a(chǎn)生多大的沖擊。目前國美互聯(lián)網(wǎng)推薦團(tuán)隊(duì)的工作更多地側(cè)重于內(nèi)容方面。
國美互聯(lián)網(wǎng)搜索推薦團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)(如CNN卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測(cè)等)對(duì)商品主圖、詳情頁圖片進(jìn)行分析和描述,將圖片(非結(jié)構(gòu)化數(shù)據(jù))轉(zhuǎn)成文字(結(jié)構(gòu)化數(shù)據(jù))并存放到數(shù)據(jù)庫里,以便后續(xù)分析時(shí)調(diào)用。他們由此構(gòu)建了一個(gè)基于圖像識(shí)別的相似召回模型,將其與基于用戶行為的召回模型融合在一起,在此基礎(chǔ)上進(jìn)行線上交互。如此一來得到了更多刻畫用戶、刻畫商品的維度,提升了召回模型的精準(zhǔn)度和多樣性,效果優(yōu)于僅僅關(guān)注用戶的點(diǎn)擊、關(guān)注、購買等行為。
“推薦系統(tǒng)并非0和1的問題,而是要最大化用戶購買概率。先滿足80%用戶的大體需求,然后再對(duì)20%的用戶進(jìn)行精細(xì)的需求雕刻。”
遷移學(xué)習(xí)輔助小數(shù)據(jù)集訓(xùn)練
利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建推薦場(chǎng)景時(shí),最大的難點(diǎn)是數(shù)據(jù)源頭,而深度學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)量要求很高,并不是每個(gè)機(jī)器學(xué)習(xí)問題都有足夠多的訓(xùn)練數(shù)據(jù)。因此國美也嘗試將深度學(xué)習(xí)與遷移學(xué)習(xí)(Transfer Learning)結(jié)合起來。
仍以拍照購功能為例,拍照購涉及到圖像相似性檢索的問題。而已經(jīng)有很多人針對(duì)已有的海量數(shù)據(jù)訓(xùn)練出了不同任務(wù)場(chǎng)景下的模型,因此我們可以借助別人訓(xùn)練好的模型,在國美互聯(lián)網(wǎng)商品庫中再次訓(xùn)練并進(jìn)行精調(diào),使模型達(dá)到應(yīng)用所需的要求。
未來的挑戰(zhàn)
目前,國美大數(shù)據(jù)中心正在進(jìn)行國美深度學(xué)習(xí)云平臺(tái)(Gome CloudDL)的開發(fā),使之能夠支持各業(yè)務(wù)線在風(fēng)控、圖像分類、自然語言處理、人臉識(shí)別、推薦、搜索、廣告等場(chǎng)景下的需求。Gome CloudDL基于TensorFlow和Docker搭建,能夠?qū)崿F(xiàn)多任務(wù)資源的隔離、基于Kubernetes的調(diào)度、模型的持久化存儲(chǔ)、TensorFlow與Spark無縫集成等功能。
拍照購項(xiàng)目會(huì)繼續(xù)在圖像分割、實(shí)拍圖處理、深度學(xué)習(xí)模型壓縮、分布式搜索等方面進(jìn)行優(yōu)化,提高召回精度。
除了在召回模型中使用CNN,我們接下來會(huì)嘗試?yán)肦NN來“捕捉”用戶在點(diǎn)擊序列中的模式,即利用用戶點(diǎn)擊行為發(fā)生先后順序進(jìn)行推薦和搜索的展示排序。同時(shí)還會(huì)進(jìn)行深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning)的算法開發(fā),根據(jù)用戶所處的場(chǎng)景,在交互的過程中動(dòng)態(tài)地推薦商品、活動(dòng)、主題等,將傳統(tǒng)的“商品推薦”升級(jí)成“場(chǎng)景式推薦”。
國美互聯(lián)網(wǎng)大數(shù)據(jù)中心如同人工智能技術(shù)在國美的一片試驗(yàn)田,還有更多創(chuàng)新項(xiàng)目將在這里孵化。未來道阻且長,但探索的腳步不會(huì)停下。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/8530008.html
總結(jié)
以上是生活随笔為你收集整理的深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高并发场景下的httpClient优化使
- 下一篇: Windows键盘驱动结构与消息机制--