日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路

發布時間:2025/4/5 windows 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

http://www.infoq.com/cn/articles/depth-learning-build-accurate-recommendation-system

導語

這是一個AI+的時代。

作為線上+線下的電商零售平臺,國美互聯網如何將人工智能技術嵌入到實際業務中?機器學習和深度學習技術為國美帶來了哪些改變?在這火熱的時局中,國美未來在前沿技術方面又將如何布局?且聽下文一一分解。

正文

今年機器學習已然成為炙手可熱的技術話題。深度學習與人工智能技術正在改變人們的生活,同時也給企業管理大量數據、為用戶提供更精準的服務提供了一些新的思路和嘗試的方向。越來越多的企業開始嘗試將機器學習引入原有的大數據平臺和框架中,并將公司業務與機器學習、深度學習技術相結合以尋求更優的業務價值。

2016年11月國美互聯網板塊所屬國美在線、美信、國美管家、GOME酒窖、國美海外購整合組建國美互聯網生態(分享)科技公司(下面簡稱國美互聯網),并推出了國美Plus APP。作為具備線上線下雙重基因的新零售平臺,國美互聯網近年來,針對機器學習、深度學習技術與社交電商業務相結合進行了一系列嘗試和創新。這次我們非常有幸對國美互聯網大數據中心的副總監楊驥進行了采訪,目前他主要負責搜索、推薦和深度學習三個方向的研發工作及團隊管理。作為國美互聯網個性化推薦團隊和算法架構平臺建設者,楊驥與我們分享了國美互聯網在機器學習技術之路上的嘗試、挑戰與收獲。

國美大數據中心背景

國美互聯網大數據中心主要負責大數據平臺運維、大數據應用、BI、搜索、推薦等相關內容,支撐國美互聯網全業務線(包括大家電、百貨、汽車等)的精準營銷和數據變現。尤其是最近幾年以來,中心在機器學習方面投入了非常多的資源,除了升級推薦和搜索相關的機器學習算法之外,還陸續推出了“國美拍照購”、“圖像相似推薦”、“圖像搭配推薦”等基于深度學習算法的產品。

國美個性化推薦系統面面觀

對于電商來說,個性化推薦系統是不可或缺的利器,也是國美互聯網應用機器學習和深度學習技術的主要戰場。

推薦系統演進之路

要將機器學習技術應用到實際產品中,必然離不開一套良好的算法和平臺架構。2016年3月楊驥加入國美之后,對機器學習和深度學習算法以及線上服務架構進行重構,打造了全新的個性化推薦系統。目前,楊驥帶領團隊已經完成了三輪大規模的架構升級,最終實現了一套完整的推薦系統架構,其中包括機器學習和深度學習計算平臺,并整合了A/B測試、線上部署和自動化監測等功能。

系統架構和流程

下面是國美互聯網應用Learning to Rank(機器學習排序,L2R)后的推薦系統流程圖和架構圖。采用的工具包括Apache Storm、Kafka、Spark、Flink等。

當用戶在網站或者APP上看到“猜你喜歡”的商品后進行了點擊。一方面,該點擊信息通過實時數據處理系統反饋給排序引擎和在線訓練模型,幫助推薦系統實時調優;另一方面,點擊信息進入Log。基于Log進行知識挖掘,獲取相關特征和訓練數據,并進行基礎推薦模型的計算(如關聯規則和協同過濾模型等)以及離線排序模型的訓練。離線排序模型緩存到Redis模型服務器,而相關特征數據、基礎推薦模型的粗篩結果緩存到Hbase和Redis數據服務器。

系統要向用戶展示推薦商品時,數據獲取模塊獲得用戶的基本特征和推薦的初篩結果,進行交互特征和在線特征的計算,然后利用離線模型、在線模型以及業務規則進行最終的篩選與排序,返回最終推薦結果給用戶。

數據收集和清理

國美使用Apache Kafka和Apache Storm系統收集和處理推薦展位上的實時數據消息,包括推薦展位每頁已經展示過什么商品、用戶點擊了什么商品等。然后對這些數據消息進行實時分析和統計,包括用戶在推薦展位展示之前已經對哪些品類的產品有過購買行為,對不同的已購買商品賦予不同的權重(比如手機買過則短期不會再買,紙巾則會隔較短時間反復購買),再計算出接下來的推薦展位應該顯示哪些商品。

對于一些特殊的用戶數據需要進行數據清理,以免影響算法模型的擬合效果。比如,已購買用戶對同一商品的點擊和查看對推薦排序模型是無用的,應該被排除;還有一些用戶頻繁地點擊商品但卻不下單,被稱為“點擊狂人”,可以通過統計方法將其剔除。

離線模型+在線學習

國美互聯網的推薦系統中離線模型和在線學習相輔相成。

離線模型主要是為了節省計算時間、加快響應速度,當然需要消耗一些緩存空間并犧牲一定的精度。例如,召回模型中會預置一些算法模型,并根據快照信息離線進行商品的初篩,使進入實時排序模型的商品量從千萬級別減少為數百個,大大提高了實時排序的效率。目前國美互聯網的召回模型中有20-30個算法模型,既保證了召回的多樣性,也不至于給維護帶來太多麻煩。

而在線學習則是為了提高排序的準確度,它能根據用戶實時的行為數據對模型進行實時訓練,使當前模型準確地反應用戶當下的興趣和傾向。但是使用在線學習也會引入新問題,比如在電商店慶日,用戶的購買行為可能是非理性的,如果一味地使用在線學習將會給算法模型引入嚴重的偏差,因此國美的推薦系統會定期(每天或每隔幾個小時)使用離線數據進行模型訓練并對在線模型進行校準。

用戶畫像

對于電商來說,內部收集到的用戶數據用來做用戶畫像肯定不如社交類網站的數據豐富,可能導致做出來的用戶畫像不夠立體。因此國美互聯網通過將用戶行為映射到商品信息上來構建用戶畫像。比如用戶行為(點擊、關注或收藏等)涉及的一系列商品的屬性(比如品類、品牌、中心詞、價格等)作為用戶行為的映射,刻畫出用戶感興趣的商品,然后再結合用戶標簽(比如有車一族、戶外運動愛好者等),完成用戶畫像的構建。目前用戶畫像在國美互聯網主要用于商品召回和最終商品推薦時的過濾。

算法評測

對于個性化推薦排序來說,設定可量化的目標是非常重要的。

國美對算法的評估方式包括離線評測、在線A/B測試和算法覆蓋率測試。離線評測常用的評估指標為AUC、Logloss和NDCG,其中AUC和Logloss主要評估分類的準確率,而NDCG則是評估排序質量的指標。

實際效果

國美互聯網采用CTR/CVR/GMV來對推薦排序算法的實際效果進行評估。與傳統的推薦方法相比,使用機器學習和深度學習技術后的個性化推薦排序給國美互聯網的GMV、點擊率和轉化率都帶來了更為顯著的提升。

2017年以來,憑借深度學習技術,離線模型和實時排序模型的質量大幅提升,尤其是1-5月份與2016年1-5月份相比提升效果十分顯著,推薦GMV提升70%、參與轉化率CVR提升100%。而CTR也有一組數據可供參考,采用個性化排序后,PC訂單頁“猜你喜歡”展位CTR提升幅度30.79%,PC首頁“猜你喜歡”展位CTR提升幅度14.16%。

大數據+機器學習&深度學習技術的力量著實驚人。

深度學習在國美的應用實踐

自 2012 年ImageNet大賽技驚四座后,深度學習已經成為近年來機器學習和人工智能領域中關注度最高的技術。

國美Plus拍照購

國美互聯網也展開了深度學習在圖像識別中的研究,并且已經應用于國美Plus的拍照購功能,它可以根據用戶上傳的圖片預測品類,推薦相關商品。

(點擊放大圖像)

當用戶拍照或者從PC和手機選取商品圖片上傳成功以后,系統就會進行特征向量的計算及匹配。然后猜測用戶想要的商品,根據商品圖片庫的相關結果進行展示。

(點擊放大圖像)

圖像檢索流程可以分為四步,分別是圖像標注、提取特征、降維和匹配檢索。

  • 圖像標注:對國美全站的商品圖像進行標注,最主要的工作是數據清洗,即把不能和品類對應的圖片刪除或者重新進行品類校準;先統計國美全站最近一年內各品類下商品總數的分布,然后按照分布進行圖片抽樣。
  • 提取特征:圖片的特征分為通過深度學習得到的特征和圖像局部特征。可利用caffe對CNN進行訓練,將倒數第二層輸出作為 Feature Learning 的結果提取出來(Deep Learning + Transfer Learning);可利用局部特征算子(SIFT、kaze等)提取出圖像的局部特征。
  • 降維:用積量化等方法對深度學習特征和圖像局部特征進行編碼和降維。
  • 匹配檢索:采用最近鄰搜索的方法找出每一個商品的相似商品集合。

圖像識別與推薦

基于拍照購,國美還將圖像識別融合到了個性化推薦、相似推薦和搭配購推薦中。

用戶行為+商品內容=更精確的推薦

楊驥認為,電商領域傳統的基于用戶行為構建個性化推薦系統存在一定的局限性。

基于用戶行為的推薦系統以用戶的瀏覽、點擊、收藏、關注、加入購物車、下單等行為作為數據基礎,來分析用戶可能的購物傾向。對于用戶來說,從進入網站或APP開始瀏覽商品、到考慮是否購買、最終到下單是一個連續的過程,但對于算法工程師來說得到的只是日志中幾個離散的記錄,信息量嚴重不足,通過這些有限的信息難以推測用戶完整的購物決策過程。楊驥認為,除了用戶行為,還應該重點考慮商品的內容(比如商品信息主圖、商品詳情頁圖片、標題、廣告用語和風格等)能夠對用戶產生多大的沖擊。目前國美互聯網推薦團隊的工作更多地側重于內容方面。

國美互聯網搜索推薦團隊利用深度學習技術(如CNN卷積神經網絡、目標檢測等)對商品主圖、詳情頁圖片進行分析和描述,將圖片(非結構化數據)轉成文字(結構化數據)并存放到數據庫里,以便后續分析時調用。他們由此構建了一個基于圖像識別的相似召回模型,將其與基于用戶行為的召回模型融合在一起,在此基礎上進行線上交互。如此一來得到了更多刻畫用戶、刻畫商品的維度,提升了召回模型的精準度和多樣性,效果優于僅僅關注用戶的點擊、關注、購買等行為。

“推薦系統并非0和1的問題,而是要最大化用戶購買概率。先滿足80%用戶的大體需求,然后再對20%的用戶進行精細的需求雕刻。”

遷移學習輔助小數據集訓練

利用機器學習和深度學習構建推薦場景時,最大的難點是數據源頭,而深度學習對訓練數據量要求很高,并不是每個機器學習問題都有足夠多的訓練數據。因此國美也嘗試將深度學習與遷移學習(Transfer Learning)結合起來。

仍以拍照購功能為例,拍照購涉及到圖像相似性檢索的問題。而已經有很多人針對已有的海量數據訓練出了不同任務場景下的模型,因此我們可以借助別人訓練好的模型,在國美互聯網商品庫中再次訓練并進行精調,使模型達到應用所需的要求。

未來的挑戰

目前,國美大數據中心正在進行國美深度學習云平臺(Gome CloudDL)的開發,使之能夠支持各業務線在風控、圖像分類、自然語言處理、人臉識別、推薦、搜索、廣告等場景下的需求。Gome CloudDL基于TensorFlow和Docker搭建,能夠實現多任務資源的隔離、基于Kubernetes的調度、模型的持久化存儲、TensorFlow與Spark無縫集成等功能。

拍照購項目會繼續在圖像分割、實拍圖處理、深度學習模型壓縮、分布式搜索等方面進行優化,提高召回精度。

除了在召回模型中使用CNN,我們接下來會嘗試利用RNN來“捕捉”用戶在點擊序列中的模式,即利用用戶點擊行為發生先后順序進行推薦和搜索的展示排序。同時還會進行深度強化學習(Deep Reinforcement Learning)的算法開發,根據用戶所處的場景,在交互的過程中動態地推薦商品、活動、主題等,將傳統的“商品推薦”升級成“場景式推薦”。

國美互聯網大數據中心如同人工智能技術在國美的一片試驗田,還有更多創新項目將在這里孵化。未來道阻且長,但探索的腳步不會停下。

轉載于:https://www.cnblogs.com/davidwang456/articles/8530008.html

總結

以上是生活随笔為你收集整理的深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。