日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【点击模型学习笔记】Predicting Clicks_Estimating the Click-Through Rate for New Ads_MS_www2007...

發布時間:2025/3/21 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【点击模型学习笔记】Predicting Clicks_Estimating the Click-Through Rate for New Ads_MS_www2007... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
概要: 微軟研究院的人寫的文章,提出用邏輯回歸來解決ctr預估問題,是以后ctr的經典解決方式,經典文章。
詳細內容:
名詞: CPC —— cost per click CTR —— click through rate
1. 研究初衷
搜索引擎主要靠商業廣告收入,在廣告位上面打廣告,用戶點擊,之后廣告商付費。在通用搜索引擎,通常廣告位置是在搜索結果之前,或者在搜索結果右邊。
商業廣告收入 = pClick * CPC
要提升廣告收入,關鍵問題是在有限的廣告為上面,放什么廣告?非常自然的想法就是,放用戶可能點擊的廣告,而且放每次點擊廣告商付費多的廣告,如上面公式所看到的。總而言之,計算廣告的點擊率就是問題的關鍵。
一點常識: * 搜索廣告平均點擊率是2.6%。(個人記得展示廣告的平均點擊率比這個要低一個到兩個數量級,能超過千分之中的一個就不錯了) * 搜索廣告的點擊率和廣告的展示位置關系很密切,通常排在第一個的廣告的點擊率要遠超過排在后面幾個的廣告
2. 問題抽象
對于某個廣告,要素:bid term(query命中這些term,則有機會展示這個廣告)、廣告本身、廣告商等等 當用戶搜索的query命中了bid term的時候,此時會索引到一系列廣告,計算這些廣告在當前情況下(query、用戶等)的點擊率,而且依照點擊率進行排序、展示。
3. 樸素的想法
用極大似然方式來預計點擊率,即廣告被點擊的次數除以廣告的總展示量。 缺點: * 廣告實際被點擊的次數可能非常少,計算誤差會比較大 * 對于新廣告,無法解決冷啟動問題
Regelson and Fain的方法: 對于冷啟動問題,這兩個人用該廣告bid term中的其它廣告的ctr來對其進行預測

4. 本文的方法
整體思路:把點擊率預測問題轉換成機器學習問題,將詳細廣告、環境抽象成特征,用特征來進行達到泛化的目的,從而對冷啟動中的廣告進行預測。
詳細來說:
p(click|ad, pos) = p(click|ad, pos, seen) * p(seen|ad, pos)
當中,ad表示廣告,pos表示展示位置,seen表示廣告被用戶看見。上述表示:用戶在當前位置點擊廣告的概率等于用戶在當前位置看到廣告的概率及看到廣告后點擊廣告的概率。對于上述概率進一步簡化(在直觀上作簡化),得到:
p(click|ad, pos) = p(click|ad, pos, seen) * p(seen|ad, pos) =?p(click|ad, seen) * p(seen|pos)
對于每一個廣告位置,能夠預計廣告放在這里被用戶看到的概率——非常多追蹤眼球運動的裝置能夠發現用戶觀看搜索結果的情況——這樣p(seen|pos)的值就能夠預計出來。 問題的關鍵轉成計算p(click|ad, seen)的值。
作者把概率預計問題轉成回歸問題(曲線擬合問題),只是用的是邏輯回歸、而不是線性回歸。對此,作者的解釋是,邏輯回歸(不考慮最后的階躍函數來分類)將函數值映射到[0,1]區間,這個區間和概率的區間是一致的,所以就用它了。
訓練方式: 對于某個廣告,依據歷史統計廣告的經驗點擊率,并從廣告和廣告位等信息中抽取特征,有些是實值特征,組成<特征....,經驗點擊率>這種訓練樣本,用來進行訓練。 而如今實際經常使用的系統中,往往採用的是0-1特征,而輸出值,也是0-1,表示這個廣告在當前是否被點擊。這樣的話,隨著廣告被不斷展示,可以不斷進行增量訓練。而原文作者這樣的方式,僅僅能是積累了一段時間之后,又一次統計,生成新的經驗點擊率,然后再進行又一次訓練。并且,原文這樣的方式,不可以利用那些稀疏點擊——否則依據MLE來預計的“經驗點擊率”會非常不準確(這也是本文要解決的問題),這時候會影響訓練。
數據選擇: 選擇那些展示了100次以上的廣告,進行訓練。避免數據稀疏問題。
評測方式: 依照廣告商來區分訓練集和測試集——這樣,訓練集中的經驗點擊率用于訓練,測試集中的經驗點擊率用于測試。 兩個評測標準:MSE和KL距離
作者提道了一句:作者也嘗試了回歸樹(MART: multiple additive regression trees),就像通用搜索做的那樣,只是后來發現效果和邏輯回歸非常接近,就採用邏輯回歸了。
5. 特征選擇
在模型確定之后,在deep learning延伸到這個領域之前,特征project就是最重要的——差點兒是唯一——的能夠做的事情了。
對于每個數值特征,假設count是c,則作者同一時候用了log(c+1)和c^2作為特征。作者把這些特征歸一化到均值是0方差是1的正態分布中。
5.1 term ctr
和當前廣告用同樣bid term的廣告的ctr,計算方式為: f = {alpha * average_total(ctr) + N(ad_term) * ctr(ad_term)} / {alpha +?N(ad_term)}
當中,average_total(ctr)是指訓練集合中全部廣告的總的ctr,N(ad_term)是指同當前廣告具有同樣term的廣告的數目,ctr(ad_term)是指這些廣告的平均ctr
5.2 related term ctr
對term ctr中的term進行擴展——字面意義上相關的term,如:red shoes 和 buy red shoes
5.3 ad特征
* 外觀 * 是否吸引眼球 * 廣告商信譽 * 廣告頁面質量 * 廣告與query的相關性
作者還用了unigram特征:選擇1w個在廣告title和正文中常常出現的詞語作為特征。值得注意的是,作者以前用這些詞的詞頻作為特征,來取代如今用的0-1特征,只是效果沒有明顯變化。
5.4 廣告的specificity特性
基本假設是:假設一個廣告是非常明白的針對某種類別的,如:衣服、鞋、等等,則這個廣告更加easy被用戶點擊;相反,假設一個廣告所針對的類別、受眾的人群非常模糊,則不easy被用戶點擊。
作者的做法是:通過bid term來作為搜索query,進行搜索,在搜索結果中作文本分類(偽相關反饋,不求精度,用NB就能夠),用各個類別組成的熵來反映這個廣告是僅僅針對某種特定的類別(熵非常小)還是面向非常多類別(熵比較大),將這個熵值作為特征加進去。須要注意的是,這個過程能夠進行離線計算,不必在線計算。
5.5 外部數據特征
bid term在搜索引擎中返回的頁面數量等等。由于這個數值差異比較大,作者沒有進行通常意義上的歸一化,而是把它bin化,即分成幾個桶(20個),不同區間的數值映射到不同的桶中。

6. 試驗和討論
哪些特征比較好?或者說起到的作用比較大? 作者單獨用某類特征,取得的提高例如以下: (1)廣告質量特征,提升12%;當中,廣告詞語的unigram特征就提升了10% (2)廣告specificity特性,提升9% (3)搜索數據體征(外部數據特征)提升3%
注意: 1. 不可以依據特征的權重大小來決定特征的好壞,由于各個特征事實上不是獨立的 2. 某些特征(如:某些詞)會對點擊率起到非常正面的作用,此時有兩個用處:(1)當廣告上買bid term的時候,給廣告商推薦這些詞;(2)當某些廣告商惡意的購買這些詞的時候,通過該廣告商廣告的ctr的劇烈變化,能夠偵測到這個情況,從而進一步處理。
7. 未來工作
引入term的相關詞特征

總結

以上是生活随笔為你收集整理的【点击模型学习笔记】Predicting Clicks_Estimating the Click-Through Rate for New Ads_MS_www2007...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。