【推荐系统算法学习笔记1】基本架构、专有名词、构建流程
生活随笔
收集整理的這篇文章主要介紹了
【推荐系统算法学习笔记1】基本架构、专有名词、构建流程
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1.架構
- 1.1 大數據框架:lambda 架構的
- 1.2.基本概念
- 2. 推薦模型構建流程
- 2.1 數據
- 2.1.1 數據來源
- 2.1.2 數據清洗、處理
- 2.2 特征工程
- 2.3 算法(機器學習)
- 來源
1.架構
- 推薦算法架構
- 召回
- 協同過濾
- 基于內容的
- 基于隱語義的
- 排序
- 召回決定了推薦的上限,排序逼近這個上限,體現推薦的效果
- CTR預估(點擊率-用LR線性回歸),估計用戶是否點這個商品,需要用戶的點擊數據
- 策略調整
- 比如某個item出現在列表里五次,用戶也沒點它,這時候就應該刪了
- 或者其他的商業需求
- 召回
數據
- 推薦系統業務架構圖
1.1 大數據框架:lambda 架構的
lambda架構
- 離線計算
- hadoop
- hive
- spark core,spark sql
- 優點:能處理數據量大
- 缺點:速度慢,分鐘級別延遲
- 在線(實時
- spark streaming
- storm
- flink
- 優點:實時,ms
- 缺點:處理數據量小
- 消息中間件
- flume日志采集系統
- kafka 消息隊列
- 存儲相關
- hbase:nosql數據庫
- hive:sql操作hdfs數據
1.2.基本概念
LTR 和 CTR 和 所謂的pointwise, pairwise, listwise的關系
- LTR (learning to rank) 意思是 ‘學習排序’,就是排序的機器學習技術
- CTR (click through rate) 意思是‘點擊率(預估)’,這個很常見的二分類問題(點擊概率0-1)
- pointwise 含義是單點(單文檔)角度
- pairwise 含義是文檔對角度
- listwise 含義是(推薦)文檔列表角度
2. 推薦模型構建流程
- 數據收集
- 顯性評分
- 隱性數據
- 特征工程
- 協同過濾:用戶-物品 評分矩陣
- 基于內容的推薦:分詞/tf-idf,文本信息,word2vec
- 訓練模型
- KNN
- 矩陣分解
- 評估、上線
數據->特征->機器學習算法->預測輸出
算法以服務形式存在
- Cross Sell
- 電商
- eg:買了手機就推薦手機殼
- Up Sell
2.1 數據
2.1.1 數據來源
(js的點擊事件。。。、業務數據、網上獲取(基于內容的)
內容畫像(從類似網站爬一下)、
用戶畫像(可以買一些。這個好像不合法)
- 顯性數據
- 打分(Rating)
- 評論、評價(Comments)
- 隱形數據
- 歷史訂單(Order history
- 加購物車(cart events
- 頁面瀏覽(page views
- 點擊(Click-thru
- 搜索記錄(Search log)
2.1.2 數據清洗、處理
- 數據清洗、處理
2.2 特征工程
- 協同過濾:用戶-物品 評分矩陣
- 基于內容的推薦:分詞/tf-idf,文本信息
- 商品,可能會被有類似的品味或需求的用戶購買
- 使用用戶的行為描述商品
- 用戶的行為合并–》user-item矩陣
- 行:商品的向量
- 列:用戶的向量
- 算向量間的相似度
- 皮爾遜相似度
- cos
- 。。。
- 拆矩陣,大矩陣拆成小的(SVD)
2.3 算法(機器學習)
- 協同過濾(Collaborative Filtering)
來源
總結
以上是生活随笔為你收集整理的【推荐系统算法学习笔记1】基本架构、专有名词、构建流程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 国科大prml15-BP
- 下一篇: GPT1-3(GPT3/few-shot