當前位置：首頁 > 运维知识 > windows >内容正文

windows

推荐系统里，可以用蒸馏吗？

發布時間：2025/3/8 windows 27 豆豆

生活随笔收集整理的這篇文章主要介紹了推荐系统里，可以用蒸馏吗？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

無論是商品推薦，還是廣告推薦，都大致可以分為召回，預排序(粗排)，精排等階段，如上篇<淘寶搜索中基于embedding的召回>的圖所示：

召回最重要的就是要快，高召回率，對準確率可以不必要求太高，所以召回模型往往就是雙塔模型，最經典的就是youtube雙塔:

后面各種論文大多都說基于樣本構造，模型結構，增加特征等方面去優化召回模型，但是不得不提到的是，蒸餾也是個提高召回側模型效果的一個好方法。

由于受限于線上性能，在廣告/商品召回階段，我們通常采用深度學習雙塔模型結構，離線先計算保存好ad/item embedding，線上實時預測出user embedding再通過近鄰檢索召回相似廣告。user塔和ad塔是兩個獨立的神經網絡，而user側特征和ad側特征沒有交互，損失了很多有用信息，且因為user embedding線上實時inference，這就限制了user塔的特征規模及模型結構復雜度。對于這兩個問題，蒸餾模型提供了一種解決方法。以下是蒸餾模型的特點：

由于training階段不要求實時操作，允許訓練一個復雜的模型，蒸餾模型可以在training階段用復雜度高的網絡（teacher network）-學到的知識指導較為簡單的網絡（student network）學習，在serving階段以較小的計算代價來使用簡單網絡，同時保持一定的網絡預測能力。
對于一些線上serving階段無法獲取的但又對目標有實際意義的特征，如用戶與廣告或商品的交互特征等，可以在training階段將這類特征都加入teacher network學習，而線上serving階段只需獲取用于訓練student network的基本特征，serving過程只使用student network結構。
可以將集成的知識壓縮在簡單的模型中。對于一個已經訓練好的復雜的模型，如果要集成的話要帶來很大的計算開銷，而使用蒸餾模型可以用復雜模型指導一系列簡單模型學習，根據復雜的大網絡和一系列簡單模型的輸出作為目標，訓練一個最終的模型，可不用對復雜模型進行集成。

當然，蒸餾用在召回，更重要的意義是保證召回，預排序(粗排)，精排一致性，而不是蒸餾一堆看似高大上的特點。為啥要保證一致性呢？召回側最終服務于排序，選出排序認可的才是最重要的，如果召回的都不是排序認可的，那排序模型也只能矮子里挑高的選，這樣會影響整體的收益。如果召回模型在訓練階段增加對精排的擬合，是不是可以近似達到精排模型在全庫搜索的效果呢？

那么推薦系統中蒸餾應該怎么做呢？其實最簡單的就是改loss，除了交叉熵損失，可以增加和teacher預估不一致而帶來的損失，輔助學習。

其中，L_hard是分類問題中經典的交叉熵損失，是真實標簽與模型預測概率之間的交叉熵損失，記為hard loss；λ是超參數，控制teacher模型對student的指導程度；L_soft是teacher模型輸出概率與student模型輸出概率的交叉熵，記為soft loss，形式如下所示：

也可以用帶溫度的softmax函數控制teacher信號的傳輸:

Lsoft也可以用logit直接的mse loss進行學習。大致框架如下圖所示:

訓練大家可以嘗試teacher和student同時訓練，也可以先訓練好teacher，再蒸餾到student上。在實際使用上，AUC和GAUC都是可以漲一些的。

說到這肯定有人要問了，召回可以學精排，預排序(粗排)可以學精排嗎？，當然可以，而且肯定也會有收益。那召回為啥不學預排序(粗排)？畢竟召回直接相連的就是預排序模型。當然也是可以的嘗試的。

總結一下，無論是做哪個階段的模型，只單獨優化某個階段的模型很容易到達瓶頸，盡管每年關于推薦的論文層出不窮，但是真正用上了有效果的卻很少。有時要從系統的角度出發去思考模型比單純去堆砌模型結構效果要大得多。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的推荐系统里，可以用蒸馏吗？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：神经网络调参经验大汇总
下一篇：开启算法编程之旅的准备工作——如何在Wi