日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

炼丹秘术:给Embedding插上翅膀

發(fā)布時(shí)間:2025/3/8 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 炼丹秘术:给Embedding插上翅膀 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在實(shí)踐中,推薦系統(tǒng)利用Deep Learning去生成Embedding,然后通過Embedding在召回層進(jìn)行召回是一種常用的方法,而且這種方法在效果和響應(yīng)速度上也不比多路召回差。

同時(shí),在局部敏感哈希方法快速近鄰計(jì)算的加持下,Embedding表現(xiàn)亮眼,本文作為“煉丹知識(shí)點(diǎn)”系列的第6期,我們來聊一聊到底Embedding的相關(guān)知識(shí)點(diǎn)。

煉丹知識(shí)點(diǎn):模型評估里的陷阱

煉丹知識(shí)點(diǎn):那些決定模型上限的操作

煉丹知識(shí)點(diǎn):模型的燃料,數(shù)據(jù)采樣的秘密

煉丹知識(shí)點(diǎn):深度模型的起跑線,初始化的意義

煉丹知識(shí)點(diǎn):秘制Normalization

局部敏感哈希,英文locality-sensetive hashing,常簡稱為LSH。主要運(yùn)用到高維海量數(shù)據(jù)的快速近似查找,近似查找便是比較數(shù)據(jù)點(diǎn)之間的距離或者是相似度。主要思想是,高維空間中,兩點(diǎn)若距離很近,那么設(shè)計(jì)一種哈希函數(shù)對這兩點(diǎn)進(jìn)行哈希值計(jì)算,使得他們哈希值有很大的概率是一樣的。同時(shí)若兩點(diǎn)之間的距離較遠(yuǎn),他們哈希值相同的概率會(huì)很小。

對于電商平臺(tái)而言,商品搜索服務(wù)已經(jīng)是人們?nèi)粘Y徫镏兄刂兄氐姆?wù)了,商品的召回決定了搜索系統(tǒng)的質(zhì)量。商品搜索需要從一個(gè)巨大的語料庫中找到最相關(guān)的商品,同時(shí)還要保證個(gè)性化。系統(tǒng)的表現(xiàn)主要受到搜索query和召回商品相關(guān)性,還有訓(xùn)練和預(yù)估不一致的影響。這篇論文就提出了一種多粒度的深度語義召回系統(tǒng),保證了訓(xùn)練預(yù)估一致性,并使用softmax cross-entropy loss作為訓(xùn)練目標(biāo),使得最終召回效果更好,模型收斂速度更快。

我們先看下淘寶商品搜索系統(tǒng)的全貌,每個(gè)環(huán)都是一個(gè)階段:

我們可以看到retrieval階段有億級別的商品,通過我們的深度語義召回系統(tǒng)最終召回上萬個(gè)相關(guān)商品。接下來開始介紹深度語義商品召回模型,我們有用戶全集U={u1,u2,...,UN},還有query集合Q={q1, q2, ..., qN},同時(shí)還有商品集合I={i1, i2, ..., iM}。我們把用戶歷史行為序列參照時(shí)間區(qū)間分到3個(gè)子集,實(shí)時(shí)集合R = {i1, i2, ..., iT},短期集合 S = {i1, i2, ..., iT},長期集合L = {i1, i2, ..., iT},所以任務(wù)就是給定一個(gè)用戶u的(R,S,L),以及query,返回top-K items:

用戶塔:淘寶中的query多為中文,在切詞后平均長度小于3,因此我們提出了多粒度的語義單元,從不同的語義粒度挖掘query含義,提升query的表達(dá)精度。給定一個(gè)query的切詞q={w1, ..., wn}(e.g. {紅色,連衣裙}),每個(gè)單詞可以拆成字粒度w = {c1, ..., cm},同時(shí)我們還能拿到歷史query qhis = {q1, ..., qk},所以我們可以得到6種粒度的表達(dá):

Trm用的transformer,最后把6種粒度的embedding都concat在一起。

用戶行為注意力機(jī)制: 用戶歷史點(diǎn)擊購買的items,和每個(gè)item的side information,都可以通過embedding的方式將每個(gè)item都映射成固定長度的向量,這里我們用query與歷史行為items做attention,找到相關(guān)items。對于實(shí)時(shí)集合,使用LSTM進(jìn)行編碼,然后套用個(gè)self-attention層,并在序列最前面加上0向量(以防歷史行為沒一個(gè)相關(guān)的),最后用一個(gè)attention操作獲得最終embedding,如下公式所示:

對于短期行為使用多頭self-attention,頭部添加0向量,并計(jì)算attention:

對于長期行為(一個(gè)月內(nèi))而言,分別對點(diǎn)擊,購買,加購集合進(jìn)行mean pooling,再與query進(jìn)行attention:

對長期行為的item的店鋪,類目,品牌做同樣的操作,最后把embeding進(jìn)行sum pooling:

最后再把以上所有進(jìn)行融合:

商品塔:商品塔只需要把itemID和標(biāo)題進(jìn)行融合得到最終embedding,如下式所示:

e表示商品embedding,wi表示標(biāo)題切詞,wt是轉(zhuǎn)移矩陣。

綜上整個(gè)模型如下所示:

論文分析到hing loss只能做local的比較,由此會(huì)產(chǎn)生預(yù)估與訓(xùn)練的diff,所以該文直接用softmax cross-entropy loss,定義如下:


實(shí)踐中論文使用的sampled softmax。

因?yàn)榇嬖诤芏嘣胍魯?shù)據(jù),導(dǎo)致query和商品完全不相關(guān),所以論文在softmax函數(shù)引入了一個(gè)溫度:

在樣本上,需要構(gòu)造強(qiáng)負(fù)例,本文提出的強(qiáng)負(fù)例構(gòu)造方法是在樣本空間中構(gòu)造,給定訓(xùn)練樣本(qu, i+, i-),i-是在樣本池隨機(jī)負(fù)采樣,為了簡化,i-在負(fù)樣本池找到和qu點(diǎn)積最大的topN,并和i+進(jìn)行融合成強(qiáng)負(fù)例,定義如下:

最終融合了強(qiáng)負(fù)例的softmax函數(shù)如下:

論文后面還有很多工程介紹,感興趣可以參考原文。

煉丹秘術(shù):給Embedding插上翅膀

總結(jié)

以上是生活随笔為你收集整理的炼丹秘术:给Embedding插上翅膀的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。