當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

發(fā)布時(shí)間：2024/7/5 windows 78 豆豆

生活随笔收集整理的這篇文章主要介紹了【推荐系统算法学习笔记1】基本架构、专有名词、构建流程小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

1.架構(gòu)
- 1.1 大數(shù)據(jù)框架：lambda 架構(gòu)的
- 1.2.基本概念
2. 推薦模型構(gòu)建流程
- 2.1 數(shù)據(jù)
- - 2.1.1 數(shù)據(jù)來源
  - 2.1.2 數(shù)據(jù)清洗、處理
- 2.2 特征工程
- 2.3 算法（機(jī)器學(xué)習(xí)）
來源

1.架構(gòu)

推薦算法架構(gòu)
- 召回
  - 協(xié)同過濾
  - 基于內(nèi)容的
  - 基于隱語義的
- 排序
  - 召回決定了推薦的上限，排序逼近這個(gè)上限，體現(xiàn)推薦的效果
  - CTR預(yù)估（點(diǎn)擊率-用LR線性回歸），估計(jì)用戶是否點(diǎn)這個(gè)商品，需要用戶的點(diǎn)擊數(shù)據(jù)
  - 策略調(diào)整
    - 比如某個(gè)item出現(xiàn)在列表里五次，用戶也沒點(diǎn)它，這時(shí)候就應(yīng)該刪了
    - 或者其他的商業(yè)需求

數(shù)據(jù)

推薦系統(tǒng)業(yè)務(wù)架構(gòu)圖

1.1 大數(shù)據(jù)框架：lambda 架構(gòu)的

lambda架構(gòu)

離線計(jì)算
- hadoop
- hive
- spark core,spark sql
- 優(yōu)點(diǎn)：能處理數(shù)據(jù)量大
- 缺點(diǎn)：速度慢，分鐘級(jí)別延遲
在線（實(shí)時(shí)
- spark streaming
- storm
- flink
- 優(yōu)點(diǎn)：實(shí)時(shí)，ms
- 缺點(diǎn)：處理數(shù)據(jù)量小
消息中間件
- flume日志采集系統(tǒng)
- kafka 消息隊(duì)列
存儲(chǔ)相關(guān)
- hbase:nosql數(shù)據(jù)庫
- hive：sql操作hdfs數(shù)據(jù)

1.2.基本概念

基本概念解釋
LTR 和 CTR 和所謂的pointwise, pairwise, listwise的關(guān)系

LTR (learning to rank) 意思是 ‘學(xué)習(xí)排序’，就是排序的機(jī)器學(xué)習(xí)技術(shù)
CTR (click through rate) 意思是‘點(diǎn)擊率(預(yù)估)’，這個(gè)很常見的二分類問題(點(diǎn)擊概率0-1)
pointwise 含義是單點(diǎn)(單文檔)角度
pairwise 含義是文檔對(duì)角度
listwise 含義是(推薦)文檔列表角度

2. 推薦模型構(gòu)建流程

數(shù)據(jù)收集
- 顯性評(píng)分
- 隱性數(shù)據(jù)
特征工程
- 協(xié)同過濾：用戶-物品評(píng)分矩陣
- 基于內(nèi)容的推薦：分詞/tf-idf，文本信息，word2vec
訓(xùn)練模型
- KNN
- 矩陣分解
評(píng)估、上線

數(shù)據(jù)->特征->機(jī)器學(xué)習(xí)算法->預(yù)測(cè)輸出
算法以服務(wù)形式存在

Cross Sell
- 電商
- eg:買了手機(jī)就推薦手機(jī)殼
Up Sell

2.1 數(shù)據(jù)

2.1.1 數(shù)據(jù)來源

(js的點(diǎn)擊事件。。。、業(yè)務(wù)數(shù)據(jù)、網(wǎng)上獲取（基于內(nèi)容的）
內(nèi)容畫像（從類似網(wǎng)站爬一下）、
用戶畫像（可以買一些。這個(gè)好像不合法）

顯性數(shù)據(jù)
- 打分（Rating)
- 評(píng)論、評(píng)價(jià)（Comments)
隱形數(shù)據(jù)
- 歷史訂單（Order history
- 加購物車(cart events
- 頁面瀏覽(page views
- 點(diǎn)擊(Click-thru
- 搜索記錄（Search log)

2.1.2 數(shù)據(jù)清洗、處理

數(shù)據(jù)清洗、處理

2.2 特征工程

協(xié)同過濾：用戶-物品評(píng)分矩陣
基于內(nèi)容的推薦：分詞/tf-idf，文本信息

從數(shù)據(jù)中篩選特征

商品，可能會(huì)被有類似的品味或需求的用戶購買
使用用戶的行為描述商品

用數(shù)據(jù)表示特征

用戶的行為合并–》user-item矩陣
- 行：商品的向量
- 列：用戶的向量
- 算向量間的相似度
  - 皮爾遜相似度
  - cos
  - 。。。
- 拆矩陣，大矩陣拆成小的（SVD)

2.3 算法（機(jī)器學(xué)習(xí)）

協(xié)同過濾（Collaborative Filtering)

來源

http://www.ainilearn.com/ 基礎(chǔ)：包含推薦系統(tǒng)算法、hadoop、Hbase、Hive、spark等項(xiàng)目：離線用戶、實(shí)時(shí)計(jì)算業(yè)務(wù)、推薦業(yè)務(wù)與深度學(xué)習(xí)。

https://www.bilibili.com/video/BV1qK4y1479r?p=8

總結(jié)

以上是生活随笔為你收集整理的【推荐系统算法学习笔记1】基本架构、专有名词、构建流程的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：国科大prml15-BP
下一篇： 1 操作系统第一章操作系统概念、功能