日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

淘宝搜索中基于embedding的召回

發(fā)布時間:2025/3/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 淘宝搜索中基于embedding的召回 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對于電商平臺而言,商品搜索服務(wù)已經(jīng)是人們?nèi)粘Y徫镏兄刂兄氐姆?wù)了,商品的召回決定了搜索系統(tǒng)的質(zhì)量。商品搜索需要從一個巨大的語料庫中找到最相關(guān)的商品,同時還要保證個性化。目前很多論文都在探討基于embedding的召回(EBR),這篇論文<Embedding-based Product Retrieval in Taobao Search>也不例外。EBR系統(tǒng)的表現(xiàn)主要受到搜索query和召回商品相關(guān)性,還有訓(xùn)練和預(yù)估不一致的影響。這篇論文就提出了一種多粒度的深度語義召回系統(tǒng),保證了訓(xùn)練預(yù)估一致性,并使用softmax cross-entropy loss作為訓(xùn)練目標(biāo),使得最終召回效果更好,模型收斂速度更快。

MGDSPR

我們先看下淘寶商品搜索系統(tǒng)的全貌,每個環(huán)都是一個階段:

我們可以看到retrieval階段有億級別的商品,通過我們的深度語義召回系統(tǒng)最終召回上萬個相關(guān)商品。接下來開始介紹深度語義商品召回模型,我們有用戶全集U={u1,u2,...,UN},還有query集合Q={q1, q2, ..., qN},同時還有商品集合I={i1, i2, ..., iM}。我們把用戶歷史行為序列參照時間區(qū)間分到3個子集,實時集合R = {i1, i2, ..., iT},短期集合 S = {i1, i2, ..., iT},長期集合L = {i1, i2, ..., iT},所以任務(wù)就是給定一個用戶u的(R,S,L),以及query,返回top-K items:

用戶塔:淘寶中的query多為中文,在切詞后平均長度小于3,因此我們提出了多粒度的語義單元,從不同的語義粒度挖掘query含義,提升query的表達精度。給定一個query的切詞q={w1, ..., wn}(e.g. {紅色,連衣裙}),每個單詞可以拆成字粒度w = {c1, ..., cm},同時我們還能拿到歷史query qhis= {q1, ..., qk},所以我們可以得到6種粒度的表達:

Trm用的transformer,最后把6種粒度的embedding都concat在一起。

用戶行為注意力機制: 用戶歷史點擊購買的items,和每個item的side information,都可以通過embedding的方式將每個item都映射成固定長度的向量,這里我們用query與歷史行為items做attention,找到相關(guān)items。對于實時集合,使用LSTM進行編碼,然后套用個self-attention層,并在序列最前面加上0向量(以防歷史行為沒一個相關(guān)的),最后用一個attention操作獲得最終embedding,如下公式所示:

對于短期行為使用多頭self-attention,頭部添加0向量,并計算attention:

對于長期行為(一個月內(nèi))而言,分別對點擊,購買,加購集合進行mean pooling,再與query進行attention:

對長期行為的item的店鋪,類目,品牌做同樣的操作,最后把embeding進行sum pooling:

最后再把以上所有進行融合:

商品塔:商品塔只需要把itemID和標(biāo)題進行融合得到最終embedding,如下式所示:

e表示商品embedding,wi表示標(biāo)題切詞,wt是轉(zhuǎn)移矩陣。

綜上整個模型如下所示:

論文分析到hing loss只能做local的比較,由此會產(chǎn)生預(yù)估與訓(xùn)練的diff,所以該文直接用softmax cross-entropy loss,定義如下:

實踐中論文使用的sampled softmax。

因為存在很多噪音數(shù)據(jù),導(dǎo)致query和商品完全不相關(guān),所以論文在softmax函數(shù)引入了一個溫度:

在樣本上,需要構(gòu)造強負(fù)例,本文提出的強負(fù)例構(gòu)造方法是在樣本空間中構(gòu)造,給定訓(xùn)練樣本(qu, i+, i-),i-是在樣本池隨機負(fù)采樣,為了簡化,i-在負(fù)樣本池找到和qu點積最大的topN,并和i+進行融合成強負(fù)例,定義如下:

最終融合了強負(fù)例的softmax函數(shù)如下:

論文后面還有很多工程介紹,感興趣可以參考原文。

實驗



總結(jié)

以上是生活随笔為你收集整理的淘宝搜索中基于embedding的召回的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。