當(dāng)前位置：首頁 >

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果...

發(fā)布時間：2024/10/8 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如今，在金融、零售、電商、互聯(lián)網(wǎng)等領(lǐng)域的 AI 應(yīng)用中，表數(shù)據(jù)都是最為常見且應(yīng)用廣泛的數(shù)據(jù)格式。將表數(shù)據(jù)進(jìn)行準(zhǔn)確的分類預(yù)測，對業(yè)務(wù)的提升起著至關(guān)重要的作用。

日前，第四范式提出了全新的深度神經(jīng)網(wǎng)絡(luò)表數(shù)據(jù)分類模型——深度稀疏網(wǎng)絡(luò)（Deep Sparse Network，又名 NON），通過充分捕捉特征域內(nèi)信息、刻畫特征域間潛在相互作用、深度融合特征域交互操作的輸出，獲得超過 LR、GBDT 等常用算法以及 FFM、Wide&Deep、xDeepFM、AutoInt 等基于深度學(xué)習(xí)算法的分類效果，提升了表數(shù)據(jù)的預(yù)測準(zhǔn)確度。

論文標(biāo)題：Network On Network for Tabular Data Classificationin Real-world Applications

論文作者：羅遠(yuǎn)飛、周浩、涂威威、陳雨強(qiáng)、戴文淵、楊強(qiáng)

論文鏈接：https://arxiv.org/abs/2005.10114

表數(shù)據(jù)分類模型的現(xiàn)狀

在表格數(shù)據(jù)中，每行對應(yīng)一個實例（樣本），每列對應(yīng)一個特征域。表數(shù)據(jù)分類是根據(jù)實例的特征域，將其分到對應(yīng)的類別中。表數(shù)據(jù)通常同時具有連續(xù)特征域和類別特征域，而類別特征域通常是高維稀疏的。例如在在線廣告中，類別特征域“advertiser_id”可能包含數(shù)百萬個不同的廣告主 id。

過往，包括隨機(jī)森林、GBDT 在內(nèi)的樹模型常用于表數(shù)據(jù)分類，它們對連續(xù)數(shù)值表數(shù)據(jù)有很好的效果，但對包含高維離散特征域的表數(shù)據(jù)不友好。一方面，樹模型需要枚舉所有特征域的所有特征，這對于高維的類別特征域來說效率很低。另一方面，由于類別特征域的稀缺性，對其進(jìn)行分割所獲得的收益較小。

因此，在實際應(yīng)用場景中，對數(shù)幾率回歸（Logistic Regression，LR）成為了大規(guī)模稀疏表數(shù)據(jù)分類的常用方法之一，但由于其線性特性，它缺乏對特征域間非線性交互的學(xué)習(xí)能力。因此 LR 通常需要進(jìn)行大量的特征工程，來刻畫目標(biāo)與特征域之間的非線性。

此外，FM 與 FFM 將稀疏輸入特征嵌入到低維稠密向量中，并利用向量的內(nèi)積顯式學(xué)習(xí)特征間二階交互。FM 和 FFM 取得了較好的效果，但由于它們的結(jié)構(gòu)較淺，其表達(dá)能力也受到了限制。

近年來，基于深度學(xué)習(xí)的表格數(shù)據(jù)分類方法以其強(qiáng)大的表示能力和泛化能力得到了廣泛的研究，并取得了一定的成功。包括 Wide&Deep、DeepFM（Deep Factorization Machine）、xDeepFM、AutoInt 在內(nèi)的深度學(xué)習(xí)模型大多采用如下設(shè)計范式：

1）將每個特征域的輸入映射為低維稠密向量；

2）使用 DNN 或 FM 等多種操作直接融合不同特征域?qū)?yīng)的向量；

3）將各操作的輸出進(jìn)行線性加權(quán)，得到最終的預(yù)測結(jié)果。

然而此類方法有以下三個問題：

首先，現(xiàn)有方法直接融合不同特征域的向量表示，而未顯式地考慮域內(nèi)信息。我們將“每個特征域內(nèi)的不同特征值，均屬于同一個特征域”記為域內(nèi)信息。對于每個特征域中的特征，它們的內(nèi)在屬性是都屬于同一個特征域。

以在線廣告場景為例，假設(shè)特征域 ‘a(chǎn)dvertiser_id’ 和 ‘user_id’ 分別表示廣告商和用戶的 ID，則特征域 ‘a(chǎn)dvertiser_id’（‘user_id’）中的不同的廣告商 ID（用戶 ID）都屬于廣告商（用戶）這個特征域。此外，特征域有自己的含義，如 “advertiser_id” 和 “user_id” 分別代表廣告主和用戶，而不管域內(nèi)特征的具體取值。

其次，大多數(shù)現(xiàn)有方法使用預(yù)定義的特征域交互操作組合（如 DNN、FM），而未考慮輸入數(shù)據(jù)。事實上，預(yù)定義的操作組合并不適用于所有的數(shù)據(jù)，而是應(yīng)該根據(jù)數(shù)據(jù)選擇不同的操作，以獲得更好的分類效果。

最后，現(xiàn)有方法忽略了特征域交互操作（如 DNN 和 FM）的輸出之間的非線性。

全新模型結(jié)構(gòu)帶來出色的效果

為了解決上述問題，第四范式提出了深度稀疏網(wǎng)絡(luò)，它由三部分組成：底層為域內(nèi)網(wǎng)絡(luò)（Field-wise Network），中層為域間網(wǎng)絡(luò)（Across Field Network），頂層為融合網(wǎng)絡(luò)（Operation Fusion Network）。

域內(nèi)網(wǎng)絡(luò)為每個特征域使用一個 DNN 來捕獲域內(nèi)信息，域間網(wǎng)絡(luò)采用多種域間交互操作來刻畫特征域間潛在的相互作用，最后，融合網(wǎng)絡(luò)利用 DNN 對所選特征域交互操作的輸出進(jìn)行深度融合，得到最終的預(yù)測結(jié)果。

2.1 域內(nèi)網(wǎng)絡(luò)

現(xiàn)有的主流深度表數(shù)據(jù)分類方法中，特征域內(nèi)信息沒有被顯示地考慮并加以利用。深度稀疏網(wǎng)絡(luò)利用域內(nèi)網(wǎng)絡(luò)來顯示地學(xué)習(xí)特征域內(nèi)信息。在域內(nèi)網(wǎng)絡(luò)中，每個特征域都與一個 DNN 相連，并且每個特征域的 embedding 首先輸入到該 DNN 中。鑒于 DNN 的強(qiáng)大的表達(dá)能力，特征域內(nèi)信息可以被充分地學(xué)習(xí)。

在實際應(yīng)用中，不同特征域?qū)?yīng)的域內(nèi)網(wǎng)絡(luò)可以堆疊（stacking）起來，使用并行計算進(jìn)行加速。另外，域內(nèi)網(wǎng)絡(luò)輸出的 embedding 可以直接輸入到域間網(wǎng)絡(luò)，也可以通過和原始的 embedding 相互作用，來修正得到的 embedding，常見的修正方法有拼接、按位相乘、門操作等。

2.2 域間網(wǎng)絡(luò)

域間網(wǎng)絡(luò)采用多種交互操作來刻畫特征域間的潛在相互作用，常見的特征域交互操作包括 LR、DNN、FM、Bi-Interaction 和多頭自注意網(wǎng)絡(luò)等。現(xiàn)有方法中，域間交互操作的方式是用戶事先制定的。而在深度稀疏網(wǎng)絡(luò)中，可以通過數(shù)據(jù)，自適應(yīng)地選擇最合適的操作組合，即在深度稀疏網(wǎng)絡(luò)中，操作組合的選擇是數(shù)據(jù)驅(qū)動的。

2.3 融合網(wǎng)絡(luò)

現(xiàn)有的方法對不同操作的輸出線性地加權(quán)求和，然后通過 sigmoid 函數(shù)得到最終的預(yù)測結(jié)果，而忽略了不同操作輸出之間的非線性關(guān)系。在深度稀疏網(wǎng)絡(luò)中，融合網(wǎng)絡(luò)通過 DNN 對域間網(wǎng)絡(luò)所選操作的輸出進(jìn)行深度融合，并得到最終的預(yù)測結(jié)果。

2.4 逐層監(jiān)督訓(xùn)練

雖然 NON 模型結(jié)構(gòu)增強(qiáng)了模型的表現(xiàn)力，但其模型復(fù)雜度也隨之升高，訓(xùn)練更加困難。對此，第四范式引入逐層監(jiān)督訓(xùn)練技術(shù)，即在神經(jīng)網(wǎng)絡(luò)的中間層引入額外的損失函數(shù)，使得中間層的表達(dá)更具判別性。經(jīng)測試，該方案不僅能夠增加模型最終預(yù)測效果，也使得模型能在更短的時間內(nèi)，取得更好的效果。

實驗

3.1 實驗數(shù)據(jù)

本次實驗共選取了六個數(shù)據(jù)集，包括三個流行的基準(zhǔn)數(shù)據(jù)集 Criteo、Avazu、Movielens (ML-20M) ，以及三個實際業(yè)務(wù)數(shù)據(jù)集 Talkshow、Social、Sports。數(shù)據(jù)集從百萬到千萬級，具體統(tǒng)計信息如下表所示。

3.2?全新的結(jié)構(gòu)設(shè)計提升泛化性能

經(jīng)多個公開數(shù)據(jù)集驗證，域內(nèi)網(wǎng)絡(luò)捕獲的域內(nèi)信息有助于提高模型的泛化性能；且隨著 NON 不同的組件堆疊，模型的預(yù)測效果持續(xù)增長。

3.3?效果全面領(lǐng)先主流深度模型

與 FFM、DNN、Wide&Deep、NFM、xDeepFM、AutoInt 等模型相比，深度稀疏網(wǎng)絡(luò)在實驗數(shù)據(jù)集上均能獲得最好的結(jié)果，AUC 可提高 0.64%~0.99%。

3.4?根據(jù)數(shù)據(jù)選定合適的特征域間交互操作

在域間網(wǎng)絡(luò)中，深度稀疏網(wǎng)絡(luò)將不同的交互操作視為超參數(shù)，并根據(jù)在具體數(shù)據(jù)上的預(yù)測效果，選擇最適合的交互操作。其中，DNN 被視為必選，而其他操作（LR、Bi-Interaction和multi-head self-attention）被視為可選。同時，我們通過固定深度稀疏網(wǎng)絡(luò)的其他層，只變換域間網(wǎng)絡(luò)中不同的操作組合來進(jìn)行更多驗證。

可以看出沒有一個操作組合能夠在所有數(shù)據(jù)集上都取得最優(yōu)效果，這表明了根據(jù)數(shù)據(jù)選擇操作組合的必要性。而大數(shù)據(jù)集傾向于選擇容量大、復(fù)雜的操作組合，小數(shù)據(jù)集傾向于輕量、簡單的操作組合。

3.5?深度稀疏網(wǎng)絡(luò)能夠有效捕獲域內(nèi)信息

通過對域內(nèi)網(wǎng)絡(luò)處理前后特征值對應(yīng)的向量進(jìn)行可視化和比較，可以看出經(jīng)過域內(nèi)網(wǎng)絡(luò)后，每個域內(nèi)的特征在向量空間中更加接近，不同域間的特征也更容易區(qū)分。

通過進(jìn)一步計算數(shù)據(jù)中特征的平均余弦距離（數(shù)值越大，相似度越高），域內(nèi)網(wǎng)絡(luò)可以使余弦距離提高一到兩個量級，即能有效地捕獲每個域內(nèi)特征的相似性。

未來，第四范式還將基于軟硬一體化技術(shù)持續(xù)優(yōu)化深度稀疏網(wǎng)絡(luò)，在保證模型效果、計算效率提升的同時，進(jìn)一步降低算力成本，以推動新技術(shù)應(yīng)用落地。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：哈佛混不下去的学者 32 年后拿下诺奖：
下一篇：直播 | SemEval-2020自由文

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

SIGIR 2020 | 第四范式提出深度稀疏网络模型，显著提升高维稀疏表数据分类效果...

總結(jié)