浅谈点击信号对搜索的影响
文 | bytecoder
源 | 知乎
背景
過去一周,我們探討了搜索系統最核心的指標以及如何通過實驗的方式來判斷策略的好壞。但是影響一個實驗的好壞除去策略本身的影響之外,還會受到一些反直覺的因素的影響;之前在做搜索,尤其是搜索系統成熟之后,曾經出現過一個非常詭異的情況,生產系統上的大多影響面正向的小流量實驗都不約而同的出現了衰減(實驗開始的第一天核心搜索指標顯著正向,之后正向收益開始變窄,直到最后收益消失)
問題
為什么搜索系統的小流量實驗會出現衰減,同樣以小流量實驗驗證收益的推薦與廣告是否也有類似的情況?這個是一個值得我們認真探究的一個問題,追根溯源還是需要我們綜合業務理解和技術本身來對這個問題進行拆解分析。
思考
針對上述問題,我們可以從搜索要解決的問題出發,來進行問題拆解。搜索是一個以相關性為基礎,輔助以吸引度、滿意度、權威性、時鮮性、質量、多樣性等多種不同目標為一體的復雜業務,整體要解決的問題更偏向于general,要求不同的人搜索得到的結果傾向于一致。
而用戶檢索query主題相關的page未必是一個最優解,我們還需要引入吸引度的概念,核心就是群眾力量是偉大的,在相關性區分度不明顯的前提下,引入吸引度從而將優質內容排序位置往前提(將吸引度好的page),為了刻畫搜索的吸引度,我們引入的是搜索的點擊信號(CTR),當相關性都是3分的時候,為了將優質3分的page往前頂,我們需要將那些CTR高的page排在更靠前的位置,通過普羅大眾的行為特性來幫助我們的搜索系統將優質內容往前頂。
但是僅僅依靠吸引度其實容易導致我們的page會受到標題黨的騙點擊的作弊行為的影響,為了讓優質內容得到更多的曝光,我們引入滿意度來將劣質標題黨的page打掉,常見的滿意度的刻畫可以依賴于停留時長或者完播率(視頻搜索)。
我們以吸引度來舉例,搜索的點擊刻畫是先驗和后驗的融合,先驗更多是依賴于一個點擊率預估的模型,主要是幫助我們對全局的Page進行點擊預估,更偏向于吸引度刻畫能夠有強的泛化能力;而后驗更多是依賴于統計信息,主要是幫助我們將具有置信點擊行為的page往前提。如何將先驗和后驗融合的更好也是一個非常重要的topic,不作為我們本文討論的重點。
在吸引度的刻畫中,有一類特征非常重要,就是后用行為特征:
1. 過去1小時當前page的點擊次數
2. 過去1天當前page的點擊次數
3. 過去一周當前page的點擊次數
回到剛才的問題,我們在做流量實驗的時候,我們忽視了一點就是索引庫中的所有的page是面向所有用戶開放的,索引庫沒有針對不同的流量實驗進行索引重建(索引動輒幾百億,成本過高),當我們的實驗組上線一個非常好的策略,對應的page上會積累大量的實驗組策略帶來的用戶點擊行為。但是我們的對照組(線上策略)進行點擊特征信號生成的時候,沒有去排除對應的實驗組的用戶行為所造成的影響,這個時候就會發生點擊穿越行為(實驗組的用戶行為會污染對照組點擊特征信號統計)。
搜索里面還有一種重要的信號叫做CQ數據(Click Query),我們會將page的點擊query作為一個強的信號引入我們的搜索系統中,當我們對于CQ數據應用的越重,那么上述的點擊穿越行為就會越嚴重,因為實驗組帶來的收益很快會被對應的page cover住,而對照組和實驗組在進行特征統計的時候沒有進行區分,這樣就會帶來大量的穿越行為,從而將實驗組的收益消費掉。
那么是否所有的CTR任務都會有這樣的影響?答案是肯定的,但是與搜索系統有一點不同的是,推薦和廣告更重個性化,相比于搜素更重視全局客觀的結果,推薦和廣告的點擊更重局部,去看單個用戶的行為更多,我們在推薦和廣告的點擊模型中引入了大量的uid的特征,相當于我們進行了用戶隔離,整體的穿透問題就不是很大。
解決思路
搜索所面臨的技術難題不是推薦和廣告能夠比擬的,在搜索系統里面只要用到點擊信號,都會存在不同程度的穿越問題,哪怕你線上迭代的模塊和點擊沒有任何關系,只要做AB實驗,那么勢必就會有點擊穿越問題,真正去解決這種問題現今也沒有特別好的方案,而我們唯一能做的就是拿空間來換,在空間維度進行流量區分,對照組的特征統計依賴于非實驗組的用戶行為特征,這樣能緩解一些穿越問題,但是會帶來資源的浪費和消耗。
總結
點擊穿越問題是搜索系統里一個比較疼的問題,當我們的系統迭代初期,點擊靈敏度不夠的時候,穿越問題對我們系統的影響會稍小一些;一旦我們的系統逐步趨于完善,點擊靈敏度變高后,這類問題就會非常嚴重了。縱觀國內國外大廠,解決這種方法的手段也就讓先驗實驗最多只有有限時間的收益(半天),或者通過資源來換(不優美,沒有真正解決,線下流程變的繁瑣)。搜索真的是一個非常難的問題,迭代過程中會遇到不少詭異的問題,需要我們結合業務屬性和技術特點來進行分析,坑不少,不過確實很有趣。
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的浅谈点击信号对搜索的影响的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP数据增强方法总结:EDA、BT、M
- 下一篇: 史上最全Git学习教程