當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别？...

發布時間：2024/7/5 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别？... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 王喆
源 | 王喆的機器學習筆記

作為互聯網的核心應用“搜廣推”，三個方向基本都是互聯網公司的標配。各頭部公司的搜廣推系統也都各自發展成了集成了多種模型、算法、策略的龐然大物，想一口氣講清楚三者的區別并不容易。不過萬事總有一個頭緒，對于一個復雜問題，直接深入到細節中去肯定是不明智的，我們還是要回到問題的本質上來，回到搜廣推分別想解決的根本問題上來，才能一步步的把這三個問題分別理清楚。

根本問題上的區別

搜索

搜索要解決的關鍵問題全部是圍繞著用戶輸入的搜索詞展開的。雖然現在搜索越來越強調個性化的結果，但是一定要清楚的是，推薦算法強調的個性化永遠只是搜索算法的補充。“圍繞著搜索詞的信息高效獲取問題“才是搜索算法想解決的根本問題。

正是因為三者間要解決的根本問題是不同的，帶來了三者算法層面的第一個區別，那就是優化目標的區別。

優化目標的區別

▲廣告系統的各種計費方式

各大公司廣告算法的預估目標非常統一，就是預估CTR和CVR。這是跟當前效果類廣告的產品形態密切相關的。因為CPC和CPA計價仍是效果類廣告系統的主流計價方式。所以只有預估出CTR和CVR，才能反向推導出流量的價值，并進一步給出合理的出價。所以針對這樣的目標，廣告算法非常看重把預估偏差當作首要的評價指標。

搜索

搜索的預估目標又有所不同，因為相比廣告和推薦，搜索某種意義上說是存在著“正確答案”的。所以搜索非常看重能否把這些正確答案給召回回來（廣告和推薦也關注召回率，但重要性完全不同）。所以搜索系統往往會針對召回率，MAP，NDCG這些指標進行優化。

總的來說，廣告算法是要“估得更準”，推薦算法是要整體上“排的更好”，搜索算法是要“搜的更全”。

算法模型設計中的區別

優化目標有區別，這就讓它們算法模型設計中的側重點完全不一樣：

由于廣告算法要預測“精準”的CTR和CVR，用于后續計算精確的出價，因此數值上的“精準”就是至關重要的要求，僅僅預估廣告間的相對位置是無法滿足要求的。這就催生了廣告算法中對calibration方法的嚴苛要求，就算模型訓練的過程中存在偏差，比如使用了負采樣、weighted sampling等方式改變了數據原始分布，也要根據正確的后驗概率在各個維度上矯正模型輸出。此外，因為廣告是很少以列表的形式連續呈現的，要對每一條廣告的CTR，CVR都估的準，廣告算法大都是point wise的訓練方式。

搜索

對于搜索算法，我們還是要再次強調搜索詞的關鍵性，以及對搜索詞的理解。正因為這樣，搜索詞與其他特征組成的交叉特征，組合特征，以及模型中的交叉部分是異常重要的。對于一些特定場景，比如搜索引擎，我們一定程度上要抑制個性化的需求，更多把質量和權威性放在更重要的位置。

▲推薦系統中的探索與利用問題占有非常重要的地位

輔助策略和算法上的區別

除了主模型的差異，跟主模型配合的輔助策略/算法也存在著較大的區別。

廣告系統中，CTR等算法只是其中關鍵的一步，估的準CTR只是一個前提，如何讓廣告系統盈利，產生更多收入，還需要pacing，bidding，budget control，ads allocation等多個同樣重要的模塊協同作用，才能讓平臺利益最大化，這顯然是比推薦系統復雜的。

搜索

搜索系統中，大量輔助算法還是要聚焦在對搜索詞和內容的理解上。因此搜索系統往往是應用NLP模型最重的地方，因為需要對大量內容進行預處理，embedding化，進而生成更理解用戶語義的結果。比如最典型的例子就是airbnb對搜索詞embedding化后，輸入滑雪skiing，會返回更多滑雪勝地的地點，而不是僅僅是字面上的匹配。

模型本身的差異

最后才談到模型本身的差異，因為相比上面一路走來的關鍵問題，模型本身的差異反而是更細節的問題，這里從模型結構的層面談一個典型的差異：

在廣告模型中，用戶的興趣是不那么連貫的，因此容易造成sequential model的失效，attention機制可能會更加重要一些。

推薦模型中，如果不抓住用戶興趣的連續變化，是很難做好推薦模型的，因此利用sequential model來模擬用戶興趣變化往往是有收益的。

搜索模型中，搜索詞和item之間天然是一個雙塔結構，因此在模型構建的時候各種交叉特征，模型中的各種交叉結構往往是搜索類模型的重點。當然，在構建良好的交叉特征之后，使用傳統的LTR，GBDT等模型也往往能夠取得不錯的結果。

▲經典的Attention推薦模型DIN▲融合了序列結構的推薦模型DSIN▲Google play的搜索雙塔模型

系統層面的痛點

總體感覺上，廣告算法的問題更加瑣碎，各模塊協同工作找到平臺全局利潤最大化方法的難度非常大，系統異常復雜到難以掌控的地步，這是廣告算法工程師的痛點；

而推薦算法這邊，問題往往卡在長期利益與短期利益的平衡上，在模型結構紅利消失殆盡的今天，如何破局是推薦算法工程師們做夢都在想的問題。

搜索算法則往往把重心放在搜索詞和item的內容理解上，只要能做好這一點，模型結構本身反而不是改進的關鍵點了，但是在多模態的時代，圖片、視頻內容的理解往往是制約搜索效果的痛點。

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

總結

以上是生活随笔為你收集整理的排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别？...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：格局打开，带你解锁 prompt 的花式
下一篇：超硬核 ICML’21 | 如何使自然语