SparrowRecSys电影推荐系统项目(一)
SparrowRecSys電影推薦系統項目(一)
- 前言
- 一、SparrowSystems總體架構圖
- 二、數據部分
- 三、模型部分
前言
SparrowrecSys推薦系統是王喆老師非常好的一個項目實戰,我打算把這個項目弄懂并深入挖掘自己喜歡的領域。
一、SparrowSystems總體架構圖
這個架構圖邏輯清晰,將整個推薦系統分為3部分:數據部分、模型部分、前端部分。
二、數據部分
推薦系統數據部分主要負責的是用戶、物品、場景信息的收集,根據處理數據量和實時性不同,按照實時性強弱進行排序,主要有三種數據處理方式:客戶端與服務器端實時數據處理、流處理平臺實時數據處理、大數據平臺離線數據處理。
主要大數據平臺:Spark、Flink.
大數據平臺輸入:推薦系統日志、物品和用戶數據信息。
疑問:日志是怎么生成的?物品和用戶數據信息要被處理成什么格式?
大數據平臺輸出:
1.訓練階段:生成模型所需要的樣本數據,用于算法模型的訓練和評估
2.推斷階段:生成線上服務層用戶特征、物品特征和一部分場景特征,用于推薦系統線上推斷。
場景特征:上下文信息,比如天氣。
三、模型部分
推薦系統模型部分由三部分組成:召回層(粗排)、排序層(精排)、補充策略與算法層。
召回層:召回層一把采用簡單高效的算法模型從還海量的候選集中召回用戶可能感興趣的物品,召回的物品在幾百量級。
排序層:排序層將召回層篩選的物品進行進行精排序,最終得到物品量級在幾十量級。
補充策略與算法層:為了兼顧結果的多樣性、流行度、新鮮度等指標,對精排后的物品進行一定的調整,得到最終用戶可見推薦列表。
總結:推薦模型接受所有物品候選集到最后產生推薦列表,這一過程叫做模型服務過程,模型服務過程中的參數需要通過模型訓練確定模型結構、結構中不同參數權重的具體數值,以及相關模型算法策略中的參數取值。
模型訓練方法:
1.離線訓練:利用全量樣本和特征,使模型逼近全局最優點。
2.在線更新:實時消化新的數據樣本,更快地反應新的數據變化趨勢,滿足模型實時性的要求。
模型測試方式:
1.離線測試:Holdout檢驗、交叉檢驗、自助法、時間切割法、Replay
2.在線測試:A/B test
總結
以上是生活随笔為你收集整理的SparrowRecSys电影推荐系统项目(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 念一城,安一世
- 下一篇: i9507 android8.1,三星I