用Dropout思想做特征选择,保证效果还兼顾了线上性能?
這篇論文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教會了我們如何做粗排模型兼顧模型的效率和效果.提出了可學習的特征選擇方法FSCD,并在真實電商系統中應用.
簡介
如上圖(a)所示,受系統時延約束,推薦系統往往是多階段的.再看圖(b),論文提到簡單的representation-focused(RF)模型會嚴重制約我們模型的表達能力(如傳統雙塔,最后一層向量Dot,就是簡單RF模型),主要是缺少特征交叉.所以我們能否在特征上做優化,只保留效果好的特征又能保證模型推斷效率更高,用上和精排一樣interaction-focused(IF)的模型呢?當然是可以的!
FSCD
粗排用上精排的模型并且要保持高效率,也就意味著在某些方面要做犧牲,那果斷就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上圖所示,FSCD方法中效果是通過梯度優化,效率是通過特征維度的正則化來保證.在訓練過程中就可以挖掘到一批有用的特征.
對于每個特征而言,都有個可學習的dropout參數Z ∈ {0, 1} ,并且是符合伯努利分布:
該分布的超參是由特征復雜度cj決定的,cj是由特征的計算復雜度oj,向量維度ej,還有key的多少nj一起決定的.
最終損失函數如下所示:
我們可以看到每個zj還會乘上正則化系數:
又因為zj的伯努利分布不可導,可以近似為:
實驗
參考文獻
1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach https://arxiv.org/pdf/2105.07706.pdf
2、https://zhuanlan.zhihu.com/p/375943741
總結
以上是生活随笔為你收集整理的用Dropout思想做特征选择,保证效果还兼顾了线上性能?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神经网络调参技巧:warmup策略
- 下一篇: 一文看清这些年自监督和无监督的进展