淘宝搜索中基于embedding的召回
對于電商平臺而言,商品搜索服務(wù)已經(jīng)是人們?nèi)粘Y徫镏兄刂兄氐姆?wù)了,商品的召回決定了搜索系統(tǒng)的質(zhì)量。商品搜索需要從一個巨大的語料庫中找到最相關(guān)的商品,同時還要保證個性化。目前很多論文都在探討基于embedding的召回(EBR),這篇論文<Embedding-based Product Retrieval in Taobao Search>也不例外。EBR系統(tǒng)的表現(xiàn)主要受到搜索query和召回商品相關(guān)性,還有訓(xùn)練和預(yù)估不一致的影響。這篇論文就提出了一種多粒度的深度語義召回系統(tǒng),保證了訓(xùn)練預(yù)估一致性,并使用softmax cross-entropy loss作為訓(xùn)練目標(biāo),使得最終召回效果更好,模型收斂速度更快。
MGDSPR
我們先看下淘寶商品搜索系統(tǒng)的全貌,每個環(huán)都是一個階段:
我們可以看到retrieval階段有億級別的商品,通過我們的深度語義召回系統(tǒng)最終召回上萬個相關(guān)商品。接下來開始介紹深度語義商品召回模型,我們有用戶全集U={u1,u2,...,UN},還有query集合Q={q1, q2, ..., qN},同時還有商品集合I={i1, i2, ..., iM}。我們把用戶歷史行為序列參照時間區(qū)間分到3個子集,實時集合R = {i1, i2, ..., iT},短期集合 S = {i1, i2, ..., iT},長期集合L = {i1, i2, ..., iT},所以任務(wù)就是給定一個用戶u的(R,S,L),以及query,返回top-K items:
用戶塔:淘寶中的query多為中文,在切詞后平均長度小于3,因此我們提出了多粒度的語義單元,從不同的語義粒度挖掘query含義,提升query的表達精度。給定一個query的切詞q={w1, ..., wn}(e.g. {紅色,連衣裙}),每個單詞可以拆成字粒度w = {c1, ..., cm},同時我們還能拿到歷史query qhis= {q1, ..., qk},所以我們可以得到6種粒度的表達:
Trm用的transformer,最后把6種粒度的embedding都concat在一起。
用戶行為注意力機制: 用戶歷史點擊購買的items,和每個item的side information,都可以通過embedding的方式將每個item都映射成固定長度的向量,這里我們用query與歷史行為items做attention,找到相關(guān)items。對于實時集合,使用LSTM進行編碼,然后套用個self-attention層,并在序列最前面加上0向量(以防歷史行為沒一個相關(guān)的),最后用一個attention操作獲得最終embedding,如下公式所示:
對于短期行為使用多頭self-attention,頭部添加0向量,并計算attention:
對于長期行為(一個月內(nèi))而言,分別對點擊,購買,加購集合進行mean pooling,再與query進行attention:
對長期行為的item的店鋪,類目,品牌做同樣的操作,最后把embeding進行sum pooling:
最后再把以上所有進行融合:
商品塔:商品塔只需要把itemID和標(biāo)題進行融合得到最終embedding,如下式所示:
e表示商品embedding,wi表示標(biāo)題切詞,wt是轉(zhuǎn)移矩陣。
綜上整個模型如下所示:
論文分析到hing loss只能做local的比較,由此會產(chǎn)生預(yù)估與訓(xùn)練的diff,所以該文直接用softmax cross-entropy loss,定義如下:
實踐中論文使用的sampled softmax。
因為存在很多噪音數(shù)據(jù),導(dǎo)致query和商品完全不相關(guān),所以論文在softmax函數(shù)引入了一個溫度:
在樣本上,需要構(gòu)造強負(fù)例,本文提出的強負(fù)例構(gòu)造方法是在樣本空間中構(gòu)造,給定訓(xùn)練樣本(qu, i+, i-),i-是在樣本池隨機負(fù)采樣,為了簡化,i-在負(fù)樣本池找到和qu點積最大的topN,并和i+進行融合成強負(fù)例,定義如下:
最終融合了強負(fù)例的softmax函數(shù)如下:
論文后面還有很多工程介紹,感興趣可以參考原文。
實驗
總結(jié)
以上是生活随笔為你收集整理的淘宝搜索中基于embedding的召回的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 点击率预估又有新花样?
- 下一篇: 神经网络调参经验大汇总