當(dāng)前位置：首頁 >

深度学习打造精准推荐系统，细说国美互联网AI发展的进击之路

發(fā)布時(shí)間：2025/4/5 44 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习打造精准推荐系统，细说国美互联网AI发展的进击之路小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://www.infoq.com/cn/articles/depth-learning-build-accurate-recommendation-system

導(dǎo)語

這是一個(gè)AI+的時(shí)代。

作為線上+線下的電商零售平臺(tái)，國美互聯(lián)網(wǎng)如何將人工智能技術(shù)嵌入到實(shí)際業(yè)務(wù)中？機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)為國美帶來了哪些改變？在這火熱的時(shí)局中，國美未來在前沿技術(shù)方面又將如何布局？且聽下文一一分解。

正文

今年機(jī)器學(xué)習(xí)已然成為炙手可熱的技術(shù)話題。深度學(xué)習(xí)與人工智能技術(shù)正在改變?nèi)藗兊纳?#xff0c;同時(shí)也給企業(yè)管理大量數(shù)據(jù)、為用戶提供更精準(zhǔn)的服務(wù)提供了一些新的思路和嘗試的方向。越來越多的企業(yè)開始嘗試將機(jī)器學(xué)習(xí)引入原有的大數(shù)據(jù)平臺(tái)和框架中，并將公司業(yè)務(wù)與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)相結(jié)合以尋求更優(yōu)的業(yè)務(wù)價(jià)值。

2016年11月國美互聯(lián)網(wǎng)板塊所屬國美在線、美信、國美管家、GOME酒窖、國美海外購整合組建國美互聯(lián)網(wǎng)生態(tài)（分享）科技公司（下面簡稱國美互聯(lián)網(wǎng)），并推出了國美Plus APP。作為具備線上線下雙重基因的新零售平臺(tái)，國美互聯(lián)網(wǎng)近年來，針對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)與社交電商業(yè)務(wù)相結(jié)合進(jìn)行了一系列嘗試和創(chuàng)新。這次我們非常有幸對(duì)國美互聯(lián)網(wǎng)大數(shù)據(jù)中心的副總監(jiān)楊驥進(jìn)行了采訪，目前他主要負(fù)責(zé)搜索、推薦和深度學(xué)習(xí)三個(gè)方向的研發(fā)工作及團(tuán)隊(duì)管理。作為國美互聯(lián)網(wǎng)個(gè)性化推薦團(tuán)隊(duì)和算法架構(gòu)平臺(tái)建設(shè)者，楊驥與我們分享了國美互聯(lián)網(wǎng)在機(jī)器學(xué)習(xí)技術(shù)之路上的嘗試、挑戰(zhàn)與收獲。

國美大數(shù)據(jù)中心背景

國美互聯(lián)網(wǎng)大數(shù)據(jù)中心主要負(fù)責(zé)大數(shù)據(jù)平臺(tái)運(yùn)維、大數(shù)據(jù)應(yīng)用、BI、搜索、推薦等相關(guān)內(nèi)容，支撐國美互聯(lián)網(wǎng)全業(yè)務(wù)線（包括大家電、百貨、汽車等）的精準(zhǔn)營銷和數(shù)據(jù)變現(xiàn)。尤其是最近幾年以來，中心在機(jī)器學(xué)習(xí)方面投入了非常多的資源，除了升級(jí)推薦和搜索相關(guān)的機(jī)器學(xué)習(xí)算法之外，還陸續(xù)推出了“國美拍照購”、“圖像相似推薦”、“圖像搭配推薦”等基于深度學(xué)習(xí)算法的產(chǎn)品。

國美個(gè)性化推薦系統(tǒng)面面觀

對(duì)于電商來說，個(gè)性化推薦系統(tǒng)是不可或缺的利器，也是國美互聯(lián)網(wǎng)應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的主要戰(zhàn)場(chǎng)。

系統(tǒng)架構(gòu)和流程

下面是國美互聯(lián)網(wǎng)應(yīng)用Learning to Rank（機(jī)器學(xué)習(xí)排序，L2R）后的推薦系統(tǒng)流程圖和架構(gòu)圖。采用的工具包括Apache Storm、Kafka、Spark、Flink等。

當(dāng)用戶在網(wǎng)站或者APP上看到“猜你喜歡”的商品后進(jìn)行了點(diǎn)擊。一方面，該點(diǎn)擊信息通過實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)反饋給排序引擎和在線訓(xùn)練模型，幫助推薦系統(tǒng)實(shí)時(shí)調(diào)優(yōu)；另一方面，點(diǎn)擊信息進(jìn)入Log。基于Log進(jìn)行知識(shí)挖掘，獲取相關(guān)特征和訓(xùn)練數(shù)據(jù)，并進(jìn)行基礎(chǔ)推薦模型的計(jì)算（如關(guān)聯(lián)規(guī)則和協(xié)同過濾模型等）以及離線排序模型的訓(xùn)練。離線排序模型緩存到Redis模型服務(wù)器，而相關(guān)特征數(shù)據(jù)、基礎(chǔ)推薦模型的粗篩結(jié)果緩存到Hbase和Redis數(shù)據(jù)服務(wù)器。

系統(tǒng)要向用戶展示推薦商品時(shí)，數(shù)據(jù)獲取模塊獲得用戶的基本特征和推薦的初篩結(jié)果，進(jìn)行交互特征和在線特征的計(jì)算，然后利用離線模型、在線模型以及業(yè)務(wù)規(guī)則進(jìn)行最終的篩選與排序，返回最終推薦結(jié)果給用戶。

數(shù)據(jù)收集和清理

國美使用Apache Kafka和Apache Storm系統(tǒng)收集和處理推薦展位上的實(shí)時(shí)數(shù)據(jù)消息，包括推薦展位每頁已經(jīng)展示過什么商品、用戶點(diǎn)擊了什么商品等。然后對(duì)這些數(shù)據(jù)消息進(jìn)行實(shí)時(shí)分析和統(tǒng)計(jì)，包括用戶在推薦展位展示之前已經(jīng)對(duì)哪些品類的產(chǎn)品有過購買行為，對(duì)不同的已購買商品賦予不同的權(quán)重（比如手機(jī)買過則短期不會(huì)再買，紙巾則會(huì)隔較短時(shí)間反復(fù)購買），再計(jì)算出接下來的推薦展位應(yīng)該顯示哪些商品。

對(duì)于一些特殊的用戶數(shù)據(jù)需要進(jìn)行數(shù)據(jù)清理，以免影響算法模型的擬合效果。比如，已購買用戶對(duì)同一商品的點(diǎn)擊和查看對(duì)推薦排序模型是無用的，應(yīng)該被排除；還有一些用戶頻繁地點(diǎn)擊商品但卻不下單，被稱為“點(diǎn)擊狂人”，可以通過統(tǒng)計(jì)方法將其剔除。

離線模型+在線學(xué)習(xí)

國美互聯(lián)網(wǎng)的推薦系統(tǒng)中離線模型和在線學(xué)習(xí)相輔相成。

離線模型主要是為了節(jié)省計(jì)算時(shí)間、加快響應(yīng)速度，當(dāng)然需要消耗一些緩存空間并犧牲一定的精度。例如，召回模型中會(huì)預(yù)置一些算法模型，并根據(jù)快照信息離線進(jìn)行商品的初篩，使進(jìn)入實(shí)時(shí)排序模型的商品量從千萬級(jí)別減少為數(shù)百個(gè)，大大提高了實(shí)時(shí)排序的效率。目前國美互聯(lián)網(wǎng)的召回模型中有20-30個(gè)算法模型，既保證了召回的多樣性，也不至于給維護(hù)帶來太多麻煩。

而在線學(xué)習(xí)則是為了提高排序的準(zhǔn)確度，它能根據(jù)用戶實(shí)時(shí)的行為數(shù)據(jù)對(duì)模型進(jìn)行實(shí)時(shí)訓(xùn)練，使當(dāng)前模型準(zhǔn)確地反應(yīng)用戶當(dāng)下的興趣和傾向。但是使用在線學(xué)習(xí)也會(huì)引入新問題，比如在電商店慶日，用戶的購買行為可能是非理性的，如果一味地使用在線學(xué)習(xí)將會(huì)給算法模型引入嚴(yán)重的偏差，因此國美的推薦系統(tǒng)會(huì)定期（每天或每隔幾個(gè)小時(shí)）使用離線數(shù)據(jù)進(jìn)行模型訓(xùn)練并對(duì)在線模型進(jìn)行校準(zhǔn)。

用戶畫像

對(duì)于電商來說，內(nèi)部收集到的用戶數(shù)據(jù)用來做用戶畫像肯定不如社交類網(wǎng)站的數(shù)據(jù)豐富，可能導(dǎo)致做出來的用戶畫像不夠立體。因此國美互聯(lián)網(wǎng)通過將用戶行為映射到商品信息上來構(gòu)建用戶畫像。比如用戶行為（點(diǎn)擊、關(guān)注或收藏等）涉及的一系列商品的屬性（比如品類、品牌、中心詞、價(jià)格等）作為用戶行為的映射，刻畫出用戶感興趣的商品，然后再結(jié)合用戶標(biāo)簽（比如有車一族、戶外運(yùn)動(dòng)愛好者等），完成用戶畫像的構(gòu)建。目前用戶畫像在國美互聯(lián)網(wǎng)主要用于商品召回和最終商品推薦時(shí)的過濾。

算法評(píng)測(cè)

對(duì)于個(gè)性化推薦排序來說，設(shè)定可量化的目標(biāo)是非常重要的。

國美對(duì)算法的評(píng)估方式包括離線評(píng)測(cè)、在線A/B測(cè)試和算法覆蓋率測(cè)試。離線評(píng)測(cè)常用的評(píng)估指標(biāo)為AUC、Logloss和NDCG，其中AUC和Logloss主要評(píng)估分類的準(zhǔn)確率，而NDCG則是評(píng)估排序質(zhì)量的指標(biāo)。

實(shí)際效果

國美互聯(lián)網(wǎng)采用CTR/CVR/GMV來對(duì)推薦排序算法的實(shí)際效果進(jìn)行評(píng)估。與傳統(tǒng)的推薦方法相比，使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)后的個(gè)性化推薦排序給國美互聯(lián)網(wǎng)的GMV、點(diǎn)擊率和轉(zhuǎn)化率都帶來了更為顯著的提升。

2017年以來，憑借深度學(xué)習(xí)技術(shù)，離線模型和實(shí)時(shí)排序模型的質(zhì)量大幅提升，尤其是1-5月份與2016年1-5月份相比提升效果十分顯著，推薦GMV提升70%、參與轉(zhuǎn)化率CVR提升100%。而CTR也有一組數(shù)據(jù)可供參考，采用個(gè)性化排序后，PC訂單頁“猜你喜歡”展位CTR提升幅度30.79%，PC首頁“猜你喜歡”展位CTR提升幅度14.16%。

大數(shù)據(jù)+機(jī)器學(xué)習(xí)&深度學(xué)習(xí)技術(shù)的力量著實(shí)驚人。

深度學(xué)習(xí)在國美的應(yīng)用實(shí)踐

自 2012 年ImageNet大賽技驚四座后，深度學(xué)習(xí)已經(jīng)成為近年來機(jī)器學(xué)習(xí)和人工智能領(lǐng)域中關(guān)注度最高的技術(shù)。

國美Plus拍照購

國美互聯(lián)網(wǎng)也展開了深度學(xué)習(xí)在圖像識(shí)別中的研究，并且已經(jīng)應(yīng)用于國美Plus的拍照購功能，它可以根據(jù)用戶上傳的圖片預(yù)測(cè)品類，推薦相關(guān)商品。

(點(diǎn)擊放大圖像)

當(dāng)用戶拍照或者從PC和手機(jī)選取商品圖片上傳成功以后，系統(tǒng)就會(huì)進(jìn)行特征向量的計(jì)算及匹配。然后猜測(cè)用戶想要的商品，根據(jù)商品圖片庫的相關(guān)結(jié)果進(jìn)行展示。

(點(diǎn)擊放大圖像)

圖像檢索流程可以分為四步，分別是圖像標(biāo)注、提取特征、降維和匹配檢索。

圖像標(biāo)注：對(duì)國美全站的商品圖像進(jìn)行標(biāo)注，最主要的工作是數(shù)據(jù)清洗，即把不能和品類對(duì)應(yīng)的圖片刪除或者重新進(jìn)行品類校準(zhǔn)；先統(tǒng)計(jì)國美全站最近一年內(nèi)各品類下商品總數(shù)的分布，然后按照分布進(jìn)行圖片抽樣。
提取特征：圖片的特征分為通過深度學(xué)習(xí)得到的特征和圖像局部特征。可利用caffe對(duì)CNN進(jìn)行訓(xùn)練，將倒數(shù)第二層輸出作為 Feature Learning 的結(jié)果提取出來(Deep Learning + Transfer Learning)；可利用局部特征算子(SIFT、kaze等)提取出圖像的局部特征。
降維：用積量化等方法對(duì)深度學(xué)習(xí)特征和圖像局部特征進(jìn)行編碼和降維。
匹配檢索：采用最近鄰搜索的方法找出每一個(gè)商品的相似商品集合。

圖像識(shí)別與推薦

基于拍照購，國美還將圖像識(shí)別融合到了個(gè)性化推薦、相似推薦和搭配購?fù)扑]中。

用戶行為+商品內(nèi)容=更精確的推薦

楊驥認(rèn)為，電商領(lǐng)域傳統(tǒng)的基于用戶行為構(gòu)建個(gè)性化推薦系統(tǒng)存在一定的局限性。

基于用戶行為的推薦系統(tǒng)以用戶的瀏覽、點(diǎn)擊、收藏、關(guān)注、加入購物車、下單等行為作為數(shù)據(jù)基礎(chǔ)，來分析用戶可能的購物傾向。對(duì)于用戶來說，從進(jìn)入網(wǎng)站或APP開始瀏覽商品、到考慮是否購買、最終到下單是一個(gè)連續(xù)的過程，但對(duì)于算法工程師來說得到的只是日志中幾個(gè)離散的記錄，信息量嚴(yán)重不足，通過這些有限的信息難以推測(cè)用戶完整的購物決策過程。楊驥認(rèn)為，除了用戶行為，還應(yīng)該重點(diǎn)考慮商品的內(nèi)容（比如商品信息主圖、商品詳情頁圖片、標(biāo)題、廣告用語和風(fēng)格等）能夠?qū)τ脩舢a(chǎn)生多大的沖擊。目前國美互聯(lián)網(wǎng)推薦團(tuán)隊(duì)的工作更多地側(cè)重于內(nèi)容方面。

國美互聯(lián)網(wǎng)搜索推薦團(tuán)隊(duì)利用深度學(xué)習(xí)技術(shù)（如CNN卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測(cè)等）對(duì)商品主圖、詳情頁圖片進(jìn)行分析和描述，將圖片（非結(jié)構(gòu)化數(shù)據(jù)）轉(zhuǎn)成文字（結(jié)構(gòu)化數(shù)據(jù)）并存放到數(shù)據(jù)庫里，以便后續(xù)分析時(shí)調(diào)用。他們由此構(gòu)建了一個(gè)基于圖像識(shí)別的相似召回模型，將其與基于用戶行為的召回模型融合在一起，在此基礎(chǔ)上進(jìn)行線上交互。如此一來得到了更多刻畫用戶、刻畫商品的維度，提升了召回模型的精準(zhǔn)度和多樣性，效果優(yōu)于僅僅關(guān)注用戶的點(diǎn)擊、關(guān)注、購買等行為。

“推薦系統(tǒng)并非0和1的問題，而是要最大化用戶購買概率。先滿足80%用戶的大體需求，然后再對(duì)20%的用戶進(jìn)行精細(xì)的需求雕刻。”

遷移學(xué)習(xí)輔助小數(shù)據(jù)集訓(xùn)練

利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建推薦場(chǎng)景時(shí)，最大的難點(diǎn)是數(shù)據(jù)源頭，而深度學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)量要求很高，并不是每個(gè)機(jī)器學(xué)習(xí)問題都有足夠多的訓(xùn)練數(shù)據(jù)。因此國美也嘗試將深度學(xué)習(xí)與遷移學(xué)習(xí)（Transfer Learning）結(jié)合起來。

仍以拍照購功能為例，拍照購涉及到圖像相似性檢索的問題。而已經(jīng)有很多人針對(duì)已有的海量數(shù)據(jù)訓(xùn)練出了不同任務(wù)場(chǎng)景下的模型，因此我們可以借助別人訓(xùn)練好的模型，在國美互聯(lián)網(wǎng)商品庫中再次訓(xùn)練并進(jìn)行精調(diào)，使模型達(dá)到應(yīng)用所需的要求。

未來的挑戰(zhàn)

目前，國美大數(shù)據(jù)中心正在進(jìn)行國美深度學(xué)習(xí)云平臺(tái)（Gome CloudDL）的開發(fā)，使之能夠支持各業(yè)務(wù)線在風(fēng)控、圖像分類、自然語言處理、人臉識(shí)別、推薦、搜索、廣告等場(chǎng)景下的需求。Gome CloudDL基于TensorFlow和Docker搭建，能夠?qū)崿F(xiàn)多任務(wù)資源的隔離、基于Kubernetes的調(diào)度、模型的持久化存儲(chǔ)、TensorFlow與Spark無縫集成等功能。

拍照購項(xiàng)目會(huì)繼續(xù)在圖像分割、實(shí)拍圖處理、深度學(xué)習(xí)模型壓縮、分布式搜索等方面進(jìn)行優(yōu)化，提高召回精度。

除了在召回模型中使用CNN，我們接下來會(huì)嘗試?yán)肦NN來“捕捉”用戶在點(diǎn)擊序列中的模式，即利用用戶點(diǎn)擊行為發(fā)生先后順序進(jìn)行推薦和搜索的展示排序。同時(shí)還會(huì)進(jìn)行深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning）的算法開發(fā)，根據(jù)用戶所處的場(chǎng)景，在交互的過程中動(dòng)態(tài)地推薦商品、活動(dòng)、主題等，將傳統(tǒng)的“商品推薦”升級(jí)成“場(chǎng)景式推薦”。

國美互聯(lián)網(wǎng)大數(shù)據(jù)中心如同人工智能技術(shù)在國美的一片試驗(yàn)田，還有更多創(chuàng)新項(xiàng)目將在這里孵化。未來道阻且長，但探索的腳步不會(huì)停下。

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/8530008.html

總結(jié)

以上是生活随笔為你收集整理的深度学习打造精准推荐系统，细说国美互联网AI发展的进击之路的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：高并发场景下的httpClient优化使
下一篇： Windows键盘驱动结构与消息机制--

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔