日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...

發布時間:2024/7/5 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 王喆
源 | 王喆的機器學習筆記

作為互聯網的核心應用“搜廣推”,三個方向基本都是互聯網公司的標配。各頭部公司的搜廣推系統也都各自發展成了集成了多種模型、算法、策略的龐然大物,想一口氣講清楚三者的區別并不容易。不過萬事總有一個頭緒,對于一個復雜問題,直接深入到細節中去肯定是不明智的,我們還是要回到問題的本質上來,回到搜廣推分別想解決的根本問題上來,才能一步步的把這三個問題分別理清楚。

根本問題上的區別

廣告

一個公司要搭建廣告系統,它的商業目的非常直接,就是要解決公司的收入問題。所以廣告算法的目標就是為了直接增加公司收入。

推薦

推薦算法雖然本質上也是為了增加公司收入,但其直接目標是為了增加用戶的參與度。只有用戶的參與度高了,才能讓廣告系統有更多的inventory,進而增加公司營收。

搜索

搜索要解決的關鍵問題全部是圍繞著用戶輸入的搜索詞展開的。雖然現在搜索越來越強調個性化的結果,但是一定要清楚的是,推薦算法強調的個性化永遠只是搜索算法的補充。“圍繞著搜索詞的信息高效獲取問題“才是搜索算法想解決的根本問題。

正是因為三者間要解決的根本問題是不同的,帶來了三者算法層面的第一個區別,那就是優化目標的區別。

優化目標的區別

▲廣告系統的各種計費方式

廣告

各大公司廣告算法的預估目標非常統一,就是預估CTR和CVR。這是跟當前效果類廣告的產品形態密切相關的。因為CPC和CPA計價仍是效果類廣告系統的主流計價方式。所以只有預估出CTR和CVR,才能反向推導出流量的價值,并進一步給出合理的出價。所以針對這樣的目標,廣告算法非常看重把預估偏差當作首要的評價指標。

推薦

推薦算法的預估目標就不盡相同,視頻類更多傾向于預測觀看時長,新聞類預測CTR,電商類預估客單價等等這些跟用戶參與度最相關的業務指標。而且由于推薦系統的推薦場景是生成一個列表,所以更加關注item間的相對位置,因此評估階段更傾向于用AUC,gAUC,MAP這些指標作為評價標準。

搜索

搜索的預估目標又有所不同,因為相比廣告和推薦,搜索某種意義上說是存在著“正確答案”的。所以搜索非常看重能否把這些正確答案給召回回來(廣告和推薦也關注召回率,但重要性完全不同)。所以搜索系統往往會針對召回率,MAP,NDCG這些指標進行優化。

總的來說,廣告算法是要“估得更準”,推薦算法是要整體上“排的更好”,搜索算法是要“搜的更全”。

算法模型設計中的區別

優化目標有區別,這就讓它們算法模型設計中的側重點完全不一樣:

廣告

由于廣告算法要預測“精準”的CTR和CVR,用于后續計算精確的出價,因此數值上的“精準”就是至關重要的要求,僅僅預估廣告間的相對位置是無法滿足要求的。這就催生了廣告算法中對calibration方法的嚴苛要求,就算模型訓練的過程中存在偏差,比如使用了負采樣、weighted sampling等方式改變了數據原始分布,也要根據正確的后驗概率在各個維度上矯正模型輸出。此外,因為廣告是很少以列表的形式連續呈現的,要對每一條廣告的CTR,CVR都估的準,廣告算法大都是point wise的訓練方式。

推薦

推薦算法的結果往往以列表的形式呈現,因此不用估的那么準,而是要更多照顧一個列表整體上,甚至一段時間內的內容多樣性上對于用戶的“吸引力”,讓用戶的參與度更高。因此現在很多頭部公司在算法設計時,不僅要考慮當前推薦的item的吸引力,甚至會有一些list level,page level的算法去衡量整體的效果進行優化。也正因為這一點,推薦算法有大量不同的訓練方式,除了point-wise,還有pair-wise,list-wise等等。此外為了增加用戶的長期參與度,還對推薦內容的多樣性,新鮮度有更高的要求,這就讓探索與利用,強化學習等一些列方法在推薦場景下更受重視。

搜索

對于搜索算法,我們還是要再次強調搜索詞的關鍵性,以及對搜索詞的理解。正因為這樣,搜索詞與其他特征組成的交叉特征,組合特征,以及模型中的交叉部分是異常重要的。對于一些特定場景,比如搜索引擎,我們一定程度上要抑制個性化的需求,更多把質量和權威性放在更重要的位置。

▲推薦系統中的探索與利用問題占有非常重要的地位

輔助策略和算法上的區別

除了主模型的差異,跟主模型配合的輔助策略/算法也存在著較大的區別。

廣告

廣告系統中,CTR等算法只是其中關鍵的一步,估的準CTR只是一個前提,如何讓廣告系統盈利,產生更多收入,還需要pacing,bidding,budget control,ads allocation等多個同樣重要的模塊協同作用,才能讓平臺利益最大化,這顯然是比推薦系統復雜的。

推薦

推薦系統中,由于需要更多照顧用戶的長期興趣,需要一些補充策略做出一些看似“非最優”的選擇,比如探索性的嘗試一些長尾內容,在生成整個推薦列表時要加入多樣性的約束,等等。這一點上,廣告系統也需要,但遠沒有推薦系統的重視程度高。

搜索

搜索系統中,大量輔助算法還是要聚焦在對搜索詞和內容的理解上。因此搜索系統往往是應用NLP模型最重的地方,因為需要對大量內容進行預處理,embedding化,進而生成更理解用戶語義的結果。比如最典型的例子就是airbnb對搜索詞embedding化后,輸入滑雪skiing,會返回更多滑雪勝地的地點,而不是僅僅是字面上的匹配。

模型本身的差異

最后才談到模型本身的差異,因為相比上面一路走來的關鍵問題,模型本身的差異反而是更細節的問題,這里從模型結構的層面談一個典型的差異:

在廣告模型中,用戶的興趣是不那么連貫的,因此容易造成sequential model的失效,attention機制可能會更加重要一些。

推薦模型中,如果不抓住用戶興趣的連續變化,是很難做好推薦模型的,因此利用sequential model來模擬用戶興趣變化往往是有收益的。

搜索模型中,搜索詞和item之間天然是一個雙塔結構,因此在模型構建的時候各種交叉特征,模型中的各種交叉結構往往是搜索類模型的重點。當然,在構建良好的交叉特征之后,使用傳統的LTR,GBDT等模型也往往能夠取得不錯的結果。

▲經典的Attention推薦模型DIN▲融合了序列結構的推薦模型DSIN▲Google play的搜索雙塔模型

系統層面的痛點

總體感覺上,廣告算法的問題更加瑣碎,各模塊協同工作找到平臺全局利潤最大化方法的難度非常大,系統異常復雜到難以掌控的地步,這是廣告算法工程師的痛點;

而推薦算法這邊,問題往往卡在長期利益與短期利益的平衡上,在模型結構紅利消失殆盡的今天,如何破局是推薦算法工程師們做夢都在想的問題。

搜索算法則往往把重心放在搜索詞和item的內容理解上,只要能做好這一點,模型結構本身反而不是改進的關鍵點了,但是在多模態的時代,圖片、視頻內容的理解往往是制約搜索效果的痛點。

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。