【推荐系统算法学习笔记1】基本架构、专有名词、构建流程
生活随笔
收集整理的這篇文章主要介紹了
【推荐系统算法学习笔记1】基本架构、专有名词、构建流程
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 1.架構(gòu)
- 1.1 大數(shù)據(jù)框架:lambda 架構(gòu)的
- 1.2.基本概念
- 2. 推薦模型構(gòu)建流程
- 2.1 數(shù)據(jù)
- 2.1.1 數(shù)據(jù)來源
- 2.1.2 數(shù)據(jù)清洗、處理
- 2.2 特征工程
- 2.3 算法(機(jī)器學(xué)習(xí))
- 來源
1.架構(gòu)
- 推薦算法架構(gòu)
- 召回
- 協(xié)同過濾
- 基于內(nèi)容的
- 基于隱語義的
- 排序
- 召回決定了推薦的上限,排序逼近這個(gè)上限,體現(xiàn)推薦的效果
- CTR預(yù)估(點(diǎn)擊率-用LR線性回歸),估計(jì)用戶是否點(diǎn)這個(gè)商品,需要用戶的點(diǎn)擊數(shù)據(jù)
- 策略調(diào)整
- 比如某個(gè)item出現(xiàn)在列表里五次,用戶也沒點(diǎn)它,這時(shí)候就應(yīng)該刪了
- 或者其他的商業(yè)需求
- 召回
數(shù)據(jù)
- 推薦系統(tǒng)業(yè)務(wù)架構(gòu)圖
1.1 大數(shù)據(jù)框架:lambda 架構(gòu)的
lambda架構(gòu)
- 離線計(jì)算
- hadoop
- hive
- spark core,spark sql
- 優(yōu)點(diǎn):能處理數(shù)據(jù)量大
- 缺點(diǎn):速度慢,分鐘級(jí)別延遲
- 在線(實(shí)時(shí)
- spark streaming
- storm
- flink
- 優(yōu)點(diǎn):實(shí)時(shí),ms
- 缺點(diǎn):處理數(shù)據(jù)量小
- 消息中間件
- flume日志采集系統(tǒng)
- kafka 消息隊(duì)列
- 存儲(chǔ)相關(guān)
- hbase:nosql數(shù)據(jù)庫
- hive:sql操作hdfs數(shù)據(jù)
1.2.基本概念
LTR 和 CTR 和 所謂的pointwise, pairwise, listwise的關(guān)系
- LTR (learning to rank) 意思是 ‘學(xué)習(xí)排序’,就是排序的機(jī)器學(xué)習(xí)技術(shù)
- CTR (click through rate) 意思是‘點(diǎn)擊率(預(yù)估)’,這個(gè)很常見的二分類問題(點(diǎn)擊概率0-1)
- pointwise 含義是單點(diǎn)(單文檔)角度
- pairwise 含義是文檔對(duì)角度
- listwise 含義是(推薦)文檔列表角度
2. 推薦模型構(gòu)建流程
- 數(shù)據(jù)收集
- 顯性評(píng)分
- 隱性數(shù)據(jù)
- 特征工程
- 協(xié)同過濾:用戶-物品 評(píng)分矩陣
- 基于內(nèi)容的推薦:分詞/tf-idf,文本信息,word2vec
- 訓(xùn)練模型
- KNN
- 矩陣分解
- 評(píng)估、上線
數(shù)據(jù)->特征->機(jī)器學(xué)習(xí)算法->預(yù)測(cè)輸出
算法以服務(wù)形式存在
- Cross Sell
- 電商
- eg:買了手機(jī)就推薦手機(jī)殼
- Up Sell
2.1 數(shù)據(jù)
2.1.1 數(shù)據(jù)來源
(js的點(diǎn)擊事件。。。、業(yè)務(wù)數(shù)據(jù)、網(wǎng)上獲取(基于內(nèi)容的)
內(nèi)容畫像(從類似網(wǎng)站爬一下)、
用戶畫像(可以買一些。這個(gè)好像不合法)
- 顯性數(shù)據(jù)
- 打分(Rating)
- 評(píng)論、評(píng)價(jià)(Comments)
- 隱形數(shù)據(jù)
- 歷史訂單(Order history
- 加購物車(cart events
- 頁面瀏覽(page views
- 點(diǎn)擊(Click-thru
- 搜索記錄(Search log)
2.1.2 數(shù)據(jù)清洗、處理
- 數(shù)據(jù)清洗、處理
2.2 特征工程
- 協(xié)同過濾:用戶-物品 評(píng)分矩陣
- 基于內(nèi)容的推薦:分詞/tf-idf,文本信息
- 商品,可能會(huì)被有類似的品味或需求的用戶購買
- 使用用戶的行為描述商品
- 用戶的行為合并–》user-item矩陣
- 行:商品的向量
- 列:用戶的向量
- 算向量間的相似度
- 皮爾遜相似度
- cos
- 。。。
- 拆矩陣,大矩陣拆成小的(SVD)
2.3 算法(機(jī)器學(xué)習(xí))
- 協(xié)同過濾(Collaborative Filtering)
來源
總結(jié)
以上是生活随笔為你收集整理的【推荐系统算法学习笔记1】基本架构、专有名词、构建流程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 国科大prml15-BP
- 下一篇: 1 操作系统第一章 操作系统概念、功能