當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

淘宝搜索中基于embedding的召回

發(fā)布時間：2025/3/8 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了淘宝搜索中基于embedding的召回小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對于電商平臺而言，商品搜索服務(wù)已經(jīng)是人們?nèi)粘Ｙ徫镏兄刂兄氐姆?wù)了，商品的召回決定了搜索系統(tǒng)的質(zhì)量。商品搜索需要從一個巨大的語料庫中找到最相關(guān)的商品，同時還要保證個性化。目前很多論文都在探討基于embedding的召回(EBR)，這篇論文<Embedding-based Product Retrieval in Taobao Search>也不例外。EBR系統(tǒng)的表現(xiàn)主要受到搜索query和召回商品相關(guān)性，還有訓(xùn)練和預(yù)估不一致的影響。這篇論文就提出了一種多粒度的深度語義召回系統(tǒng)，保證了訓(xùn)練預(yù)估一致性，并使用softmax cross-entropy loss作為訓(xùn)練目標(biāo)，使得最終召回效果更好，模型收斂速度更快。

MGDSPR

我們先看下淘寶商品搜索系統(tǒng)的全貌，每個環(huán)都是一個階段:

我們可以看到retrieval階段有億級別的商品，通過我們的深度語義召回系統(tǒng)最終召回上萬個相關(guān)商品。接下來開始介紹深度語義商品召回模型，我們有用戶全集U={u1,u2,...,UN}，還有query集合Q={q1, q2, ..., qN}，同時還有商品集合I={i1, i2, ..., iM}。我們把用戶歷史行為序列參照時間區(qū)間分到3個子集，實時集合R = {i1, i2, ..., iT}，短期集合 S = {i1, i2, ..., iT}，長期集合L = {i1, i2, ..., iT}，所以任務(wù)就是給定一個用戶u的(R,S,L)，以及query，返回top-K items:

用戶塔：淘寶中的query多為中文，在切詞后平均長度小于3，因此我們提出了多粒度的語義單元，從不同的語義粒度挖掘query含義，提升query的表達精度。給定一個query的切詞q={w1, ..., wn}(e.g. {紅色，連衣裙})，每個單詞可以拆成字粒度w = {c1, ..., cm}，同時我們還能拿到歷史query qhis= {q1, ..., qk},所以我們可以得到6種粒度的表達：

Trm用的transformer，最后把6種粒度的embedding都concat在一起。

用戶行為注意力機制: 用戶歷史點擊購買的items，和每個item的side information，都可以通過embedding的方式將每個item都映射成固定長度的向量，這里我們用query與歷史行為items做attention，找到相關(guān)items。對于實時集合，使用LSTM進行編碼，然后套用個self-attention層，并在序列最前面加上0向量(以防歷史行為沒一個相關(guān)的)，最后用一個attention操作獲得最終embedding，如下公式所示：

對于短期行為使用多頭self-attention，頭部添加0向量，并計算attention:

對于長期行為(一個月內(nèi))而言，分別對點擊，購買，加購集合進行mean pooling，再與query進行attention：

對長期行為的item的店鋪，類目，品牌做同樣的操作，最后把embeding進行sum pooling:

最后再把以上所有進行融合：

商品塔：商品塔只需要把itemID和標(biāo)題進行融合得到最終embedding，如下式所示:

e表示商品embedding，wi表示標(biāo)題切詞，wt是轉(zhuǎn)移矩陣。

綜上整個模型如下所示：

論文分析到hing loss只能做local的比較，由此會產(chǎn)生預(yù)估與訓(xùn)練的diff，所以該文直接用softmax cross-entropy loss，定義如下：

實踐中論文使用的sampled softmax。

因為存在很多噪音數(shù)據(jù)，導(dǎo)致query和商品完全不相關(guān)，所以論文在softmax函數(shù)引入了一個溫度:

在樣本上，需要構(gòu)造強負(fù)例，本文提出的強負(fù)例構(gòu)造方法是在樣本空間中構(gòu)造，給定訓(xùn)練樣本(qu, i+, i-)，i-是在樣本池隨機負(fù)采樣，為了簡化，i-在負(fù)樣本池找到和qu點積最大的topN，并和i+進行融合成強負(fù)例，定義如下:

最終融合了強負(fù)例的softmax函數(shù)如下:

論文后面還有很多工程介紹，感興趣可以參考原文。

實驗

總結(jié)

以上是生活随笔為你收集整理的淘宝搜索中基于embedding的召回的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。