日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

SIGIR 2020 | 第四范式提出深度稀疏网络模型,显著提升高维稀疏表数据分类效果...

發(fā)布時間:2024/10/8 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SIGIR 2020 | 第四范式提出深度稀疏网络模型,显著提升高维稀疏表数据分类效果... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

如今,在金融、零售、電商、互聯(lián)網(wǎng)等領(lǐng)域的 AI 應(yīng)用中,表數(shù)據(jù)都是最為常見且應(yīng)用廣泛的數(shù)據(jù)格式。將表數(shù)據(jù)進(jìn)行準(zhǔn)確的分類預(yù)測,對業(yè)務(wù)的提升起著至關(guān)重要的作用。

日前,第四范式提出了全新的深度神經(jīng)網(wǎng)絡(luò)表數(shù)據(jù)分類模型——深度稀疏網(wǎng)絡(luò)(Deep Sparse Network,又名 NON),通過充分捕捉特征域內(nèi)信息、刻畫特征域間潛在相互作用、深度融合特征域交互操作的輸出,獲得超過 LR、GBDT 等常用算法以及 FFM、Wide&Deep、xDeepFM、AutoInt 等基于深度學(xué)習(xí)算法的分類效果,提升了表數(shù)據(jù)的預(yù)測準(zhǔn)確度。

論文標(biāo)題:Network On Network for Tabular Data Classificationin Real-world Applications

論文作者:羅遠(yuǎn)飛、周浩、涂威威、陳雨強(qiáng)、戴文淵、楊強(qiáng)

論文鏈接:https://arxiv.org/abs/2005.10114

表數(shù)據(jù)分類模型的現(xiàn)狀

在表格數(shù)據(jù)中,每行對應(yīng)一個實例(樣本),每列對應(yīng)一個特征域。表數(shù)據(jù)分類是根據(jù)實例的特征域,將其分到對應(yīng)的類別中。表數(shù)據(jù)通常同時具有連續(xù)特征域和類別特征域,而類別特征域通常是高維稀疏的。例如在在線廣告中,類別特征域“advertiser_id”可能包含數(shù)百萬個不同的廣告主 id。

?

過往,包括隨機(jī)森林、GBDT 在內(nèi)的樹模型常用于表數(shù)據(jù)分類,它們對連續(xù)數(shù)值表數(shù)據(jù)有很好的效果,但對包含高維離散特征域的表數(shù)據(jù)不友好。一方面,樹模型需要枚舉所有特征域的所有特征,這對于高維的類別特征域來說效率很低。另一方面,由于類別特征域的稀缺性,對其進(jìn)行分割所獲得的收益較小。

?

因此,在實際應(yīng)用場景中,對數(shù)幾率回歸(Logistic Regression,LR)成為了大規(guī)模稀疏表數(shù)據(jù)分類的常用方法之一,但由于其線性特性,它缺乏對特征域間非線性交互的學(xué)習(xí)能力。因此 LR 通常需要進(jìn)行大量的特征工程,來刻畫目標(biāo)與特征域之間的非線性。

?

此外,FM 與 FFM 將稀疏輸入特征嵌入到低維稠密向量中,并利用向量的內(nèi)積顯式學(xué)習(xí)特征間二階交互。FM 和 FFM 取得了較好的效果,但由于它們的結(jié)構(gòu)較淺,其表達(dá)能力也受到了限制。

?

近年來,基于深度學(xué)習(xí)的表格數(shù)據(jù)分類方法以其強(qiáng)大的表示能力和泛化能力得到了廣泛的研究,并取得了一定的成功。包括 Wide&Deep、DeepFM(Deep Factorization Machine)、xDeepFM、AutoInt 在內(nèi)的深度學(xué)習(xí)模型大多采用如下設(shè)計范式:

1)將每個特征域的輸入映射為低維稠密向量;

2)使用 DNN 或 FM 等多種操作直接融合不同特征域?qū)?yīng)的向量;

3)將各操作的輸出進(jìn)行線性加權(quán),得到最終的預(yù)測結(jié)果。

?

然而此類方法有以下三個問題:

首先,現(xiàn)有方法直接融合不同特征域的向量表示,而未顯式地考慮域內(nèi)信息。我們將“每個特征域內(nèi)的不同特征值,均屬于同一個特征域”記為域內(nèi)信息。對于每個特征域中的特征,它們的內(nèi)在屬性是都屬于同一個特征域。

以在線廣告場景為例,假設(shè)特征域 ‘a(chǎn)dvertiser_id’ 和 ‘user_id’ 分別表示廣告商和用戶的 ID,則特征域 ‘a(chǎn)dvertiser_id’(‘user_id’)中的不同的廣告商 ID(用戶 ID)都屬于廣告商(用戶)這個特征域。此外,特征域有自己的含義,如 “advertiser_id” 和 “user_id” 分別代表廣告主和用戶,而不管域內(nèi)特征的具體取值。

?

其次,大多數(shù)現(xiàn)有方法使用預(yù)定義的特征域交互操作組合(如 DNN、FM),而未考慮輸入數(shù)據(jù)。事實上,預(yù)定義的操作組合并不適用于所有的數(shù)據(jù),而是應(yīng)該根據(jù)數(shù)據(jù)選擇不同的操作,以獲得更好的分類效果。

?

最后,現(xiàn)有方法忽略了特征域交互操作(如 DNN 和 FM)的輸出之間的非線性。

全新模型結(jié)構(gòu)帶來出色的效果

為了解決上述問題,第四范式提出了深度稀疏網(wǎng)絡(luò),它由三部分組成:底層為域內(nèi)網(wǎng)絡(luò)(Field-wise Network),中層為域間網(wǎng)絡(luò)(Across Field Network),頂層為融合網(wǎng)絡(luò)(Operation Fusion Network)。

?

域內(nèi)網(wǎng)絡(luò)為每個特征域使用一個 DNN 來捕獲域內(nèi)信息,域間網(wǎng)絡(luò)采用多種域間交互操作來刻畫特征域間潛在的相互作用,最后,融合網(wǎng)絡(luò)利用 DNN 對所選特征域交互操作的輸出進(jìn)行深度融合,得到最終的預(yù)測結(jié)果。

2.1 域內(nèi)網(wǎng)絡(luò)

現(xiàn)有的主流深度表數(shù)據(jù)分類方法中,特征域內(nèi)信息沒有被顯示地考慮并加以利用。深度稀疏網(wǎng)絡(luò)利用域內(nèi)網(wǎng)絡(luò)來顯示地學(xué)習(xí)特征域內(nèi)信息。在域內(nèi)網(wǎng)絡(luò)中,每個特征域都與一個 DNN 相連,并且每個特征域的 embedding 首先輸入到該 DNN 中。鑒于 DNN 的強(qiáng)大的表達(dá)能力,特征域內(nèi)信息可以被充分地學(xué)習(xí)。

?

在實際應(yīng)用中,不同特征域?qū)?yīng)的域內(nèi)網(wǎng)絡(luò)可以堆疊(stacking)起來,使用并行計算進(jìn)行加速。另外,域內(nèi)網(wǎng)絡(luò)輸出的 embedding 可以直接輸入到域間網(wǎng)絡(luò),也可以通過和原始的 embedding 相互作用,來修正得到的 embedding,常見的修正方法有拼接、按位相乘、門操作等。

2.2 域間網(wǎng)絡(luò)

域間網(wǎng)絡(luò)采用多種交互操作來刻畫特征域間的潛在相互作用,常見的特征域交互操作包括 LR、DNN、FM、Bi-Interaction 和多頭自注意網(wǎng)絡(luò)等。現(xiàn)有方法中,域間交互操作的方式是用戶事先制定的。而在深度稀疏網(wǎng)絡(luò)中,可以通過數(shù)據(jù),自適應(yīng)地選擇最合適的操作組合,即在深度稀疏網(wǎng)絡(luò)中,操作組合的選擇是數(shù)據(jù)驅(qū)動的。

2.3 融合網(wǎng)絡(luò)

現(xiàn)有的方法對不同操作的輸出線性地加權(quán)求和,然后通過 sigmoid 函數(shù)得到最終的預(yù)測結(jié)果,而忽略了不同操作輸出之間的非線性關(guān)系。在深度稀疏網(wǎng)絡(luò)中,融合網(wǎng)絡(luò)通過 DNN 對域間網(wǎng)絡(luò)所選操作的輸出進(jìn)行深度融合,并得到最終的預(yù)測結(jié)果。

2.4 逐層監(jiān)督訓(xùn)練

?

雖然 NON 模型結(jié)構(gòu)增強(qiáng)了模型的表現(xiàn)力,但其模型復(fù)雜度也隨之升高,訓(xùn)練更加困難。對此,第四范式引入逐層監(jiān)督訓(xùn)練技術(shù),即在神經(jīng)網(wǎng)絡(luò)的中間層引入額外的損失函數(shù),使得中間層的表達(dá)更具判別性。經(jīng)測試,該方案不僅能夠增加模型最終預(yù)測效果,也使得模型能在更短的時間內(nèi),取得更好的效果。

實驗

3.1 實驗數(shù)據(jù)

本次實驗共選取了六個數(shù)據(jù)集,包括三個流行的基準(zhǔn)數(shù)據(jù)集 Criteo、Avazu、Movielens (ML-20M) ,以及三個實際業(yè)務(wù)數(shù)據(jù)集 Talkshow、Social、Sports。數(shù)據(jù)集從百萬到千萬級,具體統(tǒng)計信息如下表所示。

3.2?全新的結(jié)構(gòu)設(shè)計提升泛化性能

經(jīng)多個公開數(shù)據(jù)集驗證,域內(nèi)網(wǎng)絡(luò)捕獲的域內(nèi)信息有助于提高模型的泛化性能;且隨著 NON 不同的組件堆疊,模型的預(yù)測效果持續(xù)增長。

3.3?效果全面領(lǐng)先主流深度模型

與 FFM、DNN、Wide&Deep、NFM、xDeepFM、AutoInt 等模型相比,深度稀疏網(wǎng)絡(luò)在實驗數(shù)據(jù)集上均能獲得最好的結(jié)果,AUC 可提高 0.64%~0.99%。

3.4?根據(jù)數(shù)據(jù)選定合適的特征域間交互操作

在域間網(wǎng)絡(luò)中,深度稀疏網(wǎng)絡(luò)將不同的交互操作視為超參數(shù),并根據(jù)在具體數(shù)據(jù)上的預(yù)測效果,選擇最適合的交互操作。其中,DNN 被視為必選,而其他操作(LR、Bi-Interaction和multi-head self-attention)被視為可選。同時,我們通過固定深度稀疏網(wǎng)絡(luò)的其他層,只變換域間網(wǎng)絡(luò)中不同的操作組合來進(jìn)行更多驗證。

可以看出沒有一個操作組合能夠在所有數(shù)據(jù)集上都取得最優(yōu)效果,這表明了根據(jù)數(shù)據(jù)選擇操作組合的必要性。而大數(shù)據(jù)集傾向于選擇容量大、復(fù)雜的操作組合,小數(shù)據(jù)集傾向于輕量、簡單的操作組合。

?

3.5?深度稀疏網(wǎng)絡(luò)能夠有效捕獲域內(nèi)信息

通過對域內(nèi)網(wǎng)絡(luò)處理前后特征值對應(yīng)的向量進(jìn)行可視化和比較,可以看出經(jīng)過域內(nèi)網(wǎng)絡(luò)后,每個域內(nèi)的特征在向量空間中更加接近,不同域間的特征也更容易區(qū)分。

通過進(jìn)一步計算數(shù)據(jù)中特征的平均余弦距離(數(shù)值越大,相似度越高),域內(nèi)網(wǎng)絡(luò)可以使余弦距離提高一到兩個量級,即能有效地捕獲每個域內(nèi)特征的相似性。

未來,第四范式還將基于軟硬一體化技術(shù)持續(xù)優(yōu)化深度稀疏網(wǎng)絡(luò),在保證模型效果、計算效率提升的同時,進(jìn)一步降低算力成本,以推動新技術(shù)應(yīng)用落地。

?

更多閱讀

?

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的SIGIR 2020 | 第四范式提出深度稀疏网络模型,显著提升高维稀疏表数据分类效果...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。