日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

曾几何时,我们炼的不是丹,是特征

發布時間:2025/3/8 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 曾几何时,我们炼的不是丹,是特征 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于煉丹師來說,特別是面對海量特征,還要從中挖掘出交叉特征"喂"給模型,是十分痛苦的。不得不說,人都是"懶惰"的,我們煉丹師當然希望有個厲害的深度學習模型,只需要對最原始的特征做預處理后,扔給模型,讓它自己學習交叉特征。

希望模型像"奶牛"吃草,擠得是"牛奶",那么我們必須保證"喂"的是草。并不是所有的交叉特征與推薦系統的最終優化目標都是相關的,盲目的"喂"特征只會帶來更多的噪聲和系統準確率的下降。《Detecting Beneficial Feature Interactions for Recommender Systems》這篇論文就提出了用GNN去自動檢測對推薦系統有利的交叉特征。

首先一個數據集定義如下:

其中ck表示類目特征,xk標志特征的值,J是所有特征的索引。

定義1: 有益的pairwise交互特征

這個定義其實比較簡單,就是有一系列特征,所有特征兩兩組合,成一個大的集合,我們希望從中能找到一個交叉特征子集,它在驗證集上的準確率優于其他子集。

定義2:pairwise statistical interaction

這個定義是這樣,有x1~xk一共k個特征(特征是向量同理),F(X)能表示成兩個分別不依賴xi和xj特征的函數之和,那么我們認為這兩個特征間沒有pairwise statistical interation,如下式:

L0-SIGN模型的輸入是沒有邊信息的圖,特征是nodes,特征交互是邊,如果兩個特征nodes之間存在邊,代表這兩個特征的交互特征對模型有益。

L0-SIGN有兩個模塊,第一個是L0邊預估模塊,就是預估邊應不應該存在。然后是圖分類SIGN模塊,SIGN模塊如下圖所示:

首先有初始化embedding后的nodes,通過邊進行交互,然后nodes的表達開始不斷更新,最后更新完的所有nodes的表達產出最終預估。整體的預估函數如下:

L0 邊預估模塊:

這里我們使用基于矩陣分解的模型對邊進行預估。矩陣分解通過對圖的鄰接矩陣進行分解,能夠非常高效的對邊進行建模,而且把所有node轉成稠密向量。但在L0-SIGN中,我們并不知道該圖的鄰接矩陣真實應該是什么樣,所以無法進行梯度更新。所以每條邊的值,我們通過一個邊預估函數:

輸入兩個節點embedding,輸出0/1,表示node間是否有邊,我們知道無向圖鄰接矩陣是對稱的,所有fep也是對稱的:

在這篇論文中,fep的輸入是兩個node向量的element-wise product,fep是多層感知器。在訓練的時候,L0就像正則化一樣最小化探測邊的數量。

SIGN邊預估模塊:

如果兩個節點之間邊是1,那么這兩個節點之間的交互特征用一個非加法的函數映射:

通過該函數映射后的embedding zij就是交互特征。和fep類似,h(ui, uj)函數同樣要是對稱的。接下來每個節點就可以開始更新過程,每個節點的更新用一個線性aggregation方程:

最后所有節點的embedding都會通過一個線性方程g轉變成標量,所有的標量再通過一個線性方程轉變成SIGN的輸出,如下所示:

SIGN總體的預估函數如下:

總結完所有模塊,L0-SIGN的預估方程就如下所示:

為了確保模型能夠成功的找到有益的交互特征,損失函數定義如下:

一共3項,第一項就是正常預估偏差,第二項是所有邊為1的概率和,第三項是l2正則項。

從實驗中,我們可以看到無論對比各種FM模型,還是圖模型,L0-SIGN都表現最優。

更多干貨,請關注:煉丹筆記曾幾何時,我們都是煉的不是丹,是特征!

總結

以上是生活随笔為你收集整理的曾几何时,我们炼的不是丹,是特征的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。