當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文解读】NN如何在表格数据中战胜GBDT类模型！

發(fā)布時間：2025/3/12 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文解读】NN如何在表格数据中战胜GBDT类模型！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：一元，四品煉丹師

TabNet: Attentive Interpretable Tabular Learning(ArXiv2020)

背景

本文提出了一種高性能、可解釋的規(guī)范深度表格數(shù)據(jù)學(xué)習(xí)結(jié)構(gòu)TabNet。號稱吊錘XGBoost和LightGBM等GBDT類模型。來吧，開學(xué)！

TabNet使用sequential的attention來選擇在每個決策步驟中要推理的特征，使得學(xué)習(xí)被用于最顯著的特征，從而實現(xiàn)可解釋性和更有效的學(xué)習(xí)。我們證明了TabNet在廣泛的非性能飽和表格數(shù)據(jù)集上優(yōu)于其他變體，并產(chǎn)生了可解釋的特征屬性和對其全局行為的洞察。

最后，我們展示了表格數(shù)據(jù)的自監(jiān)督學(xué)習(xí)，在未標(biāo)記數(shù)據(jù)豐富的情況下顯著提高了效果。

1. 決策樹類模型在諸多的表格型問題中仍然具有非常大的優(yōu)勢：

對于表格型數(shù)據(jù)中常見的具有近似超平面邊界的決策流形，它們是表示有效的；
它們的基本形式具有高度的可解釋性（例如，通過跟蹤決策節(jié)點），并且對于它們的集成形式有流行的事后可解釋性方法;
訓(xùn)練非?？?#xff1b;

2. DNN的優(yōu)勢：

有效地編碼多種數(shù)據(jù)類型，如圖像和表格數(shù)據(jù);
減輕特征工程的需要，這是目前基于樹的表格數(shù)據(jù)學(xué)習(xí)方法的一個關(guān)鍵方面；
從流式數(shù)據(jù)中學(xué)習(xí)；
端到端模型的表示學(xué)習(xí)，這使得許多有價值的應(yīng)用場景能夠?qū)崿F(xiàn)，包括數(shù)據(jù)高效的域適配；

3. TabNet:

TabNet無需任何預(yù)處理即可輸入原始表格數(shù)據(jù)，并使用基于梯度下降的優(yōu)化方法進(jìn)行訓(xùn)練，實現(xiàn)了端到端學(xué)習(xí)的靈活集成。
TabNet使用sequential attention來選擇在每個決策步驟中從哪些特征中推理，從而實現(xiàn)可解釋性和更好的學(xué)習(xí)，因為學(xué)習(xí)能力用于最顯著的特征。這種特征選擇是基于實例的，例如，對于每個輸入，它可以是不同的，并且與其他基于實例的特征選擇方法不同,TabNet采用了一種深度特征選擇和推理的學(xué)習(xí)體系結(jié)構(gòu)。
TabNet在不同領(lǐng)域的分類和回歸問題的不同數(shù)據(jù)集上優(yōu)于或等同于其他表格學(xué)習(xí)模型；
TabNet有兩種可解釋性：局部可解釋性，用于可視化特征的重要性及其組合方式；全局可解釋性，用于量化每個特征對訓(xùn)練模型的貢獻(xiàn)。
最后，對于表格數(shù)據(jù)，我們首次通過使用無監(jiān)督預(yù)訓(xùn)練來預(yù)測掩蔽特征，得到了顯著的性能提升；

TabNet

類似于DTs的DNN building blocks

使用從數(shù)據(jù)中學(xué)習(xí)的稀疏實例特征選擇；
構(gòu)造一個連續(xù)的多步驟體系結(jié)構(gòu)，其中每個步驟有助于基于所選特征的決策的一部分；
通過對所選特征的非線性處理來提高學(xué)習(xí)能力；
通過更高的維度和更多的步驟來模擬融合。

TabNET的框架

我們使用所有的原始數(shù)值特征并且將類別特征轉(zhuǎn)化為可以訓(xùn)練的embedding，我們并不考慮全局特征normalization。

在每一輪我們將D維度的特征傳入，其中是batch size, TabNet的編碼是基于序列化的多步處理, 有個決策過程。在第步我們輸入第步的處理信息來決定使用哪些特征，并且輸出處理過的特征表示來集成到整體的決策。

特征選擇

我們使用可學(xué)習(xí)的mask, 用于顯著特征的soft選擇，通過最多的顯著特征的稀疏選擇，決策步的學(xué)習(xí)能力在不相關(guān)的上面不被浪費，從而使模型更具參數(shù)效率。masking是可乘的，,此處我們使用attentive transformer來獲得使用在前面步驟中處理過的特征的masks，.

Sparsemax規(guī)范化通過將歐幾里得投影映射到概率simplex上鼓勵稀疏性，觀察到概率simplex在性能上更優(yōu)越，并與稀疏特征選擇的目標(biāo)一致，以便于解釋。注意: , 是一個可以訓(xùn)練的函數(shù)。

是先驗的scale項，表示一個特殊的特征之前被使用的多少，,其中是縮放參數(shù)。

當(dāng)?shù)臅r候,特征只會在第一個決策步被使用，當(dāng)變大的時候, 更多的靈活性會在多個決策步被使用，被初始化為1，，如果某個特征是沒什么用處的，那么對應(yīng)的就是0。

為了控制選擇特征的稀疏性，此處加入sparsity的正則來控制數(shù)值穩(wěn)定性，

其中對于數(shù)值穩(wěn)定性是一個很小的書，我們再最終的loss上加入稀疏的正則,對應(yīng)的參數(shù)為.

特征處理

我們使用一個特征transformer來處理過濾的特征，然后拆分決策步驟輸出和后續(xù)步驟信息，,其中, ,對于具有高容量的參數(shù)有效且魯棒的學(xué)習(xí)，特征變換器應(yīng)該包括在所有決策步驟之間共享的層（因為在不同的決策步驟之間輸入相同的特征）以及決策步驟相關(guān)的層。上圖展示了作為兩個共享層和兩個決策步驟相關(guān)層的級聯(lián)的實現(xiàn)。

每個FC層后面是BN和gated線性單元（GLU）非線性，最終通過歸一化連接到歸一化殘差連接。此處我們通過的正則來保證網(wǎng)絡(luò)的方差以穩(wěn)定學(xué)習(xí)。

為了快速的訓(xùn)練，此處我們使用帶有BN的大的batch size，因此，除了應(yīng)用到輸入特征的，我們使用ghost BN形式，使用一個virtual batchsize 和momentum ,對于輸入特征，我們觀測到low-variance平均的好處，因此可以避免ghost BN，最終我們通過decision-tree形式的aggregation，我們構(gòu)建整體的決策embedding， ,再使用線性mapping, 得到最終的輸出。

解釋性

此處我們可以使用特征選擇的mask來捕捉在每一步的選擇的特征，如果：

,那么第個樣本的第個特征對于我們的決策是沒有任何幫助的；

如果是一個線性函數(shù)，的稀疏應(yīng)該對應(yīng)的二者重要性，盡管每次決策步使用一個非線性處理，他們的輸出是以線性的方式組合，我們的目的是量化一個總體特征的重要性，除了分析每一步。組合不同步驟的Mask需要一個系數(shù)來衡量決策中每個步驟的相對重要性，我們提出：

來表示在第步?jīng)Q策步對于第個樣本的累計決策貢獻(xiàn)。

直覺上,如果，那么在第個決策步的所有特征就應(yīng)當(dāng)對整體的決策沒有任何幫助。當(dāng)它的值增長的時候，它在整體線性的組合上會更為重要，在每次決策步的時候?qū)Q策mask進(jìn)行縮放，,我們對特征重要性mask進(jìn)行特征的集成， .

表格自監(jiān)督學(xué)習(xí)

我們提出了一個解碼器架構(gòu)來從TabNet編碼的表示中重建表格特征。解碼器由特征變換器組成，每個判決步驟后面是FC層。將輸出相加得到重構(gòu)特征。我們提出了一個從其他特征列中預(yù)測缺失特征列的任務(wù)?？紤]一個二進(jìn)制掩碼,

TabNet的encoder輸入;
decoder輸入重構(gòu)特征, ;

我們在編碼器中初始化, 這么做模型只重點關(guān)注已知的特征，解碼器的最后一層FC層和進(jìn)行相乘輸出未知的特征，我們考慮在自監(jiān)督階段的重構(gòu)損失，

使用真實值的標(biāo)準(zhǔn)偏差進(jìn)行Normalization是有幫助的，因為特征可能有不同的ranges，我們在每次迭代時以概率從伯努利分布中獨立采樣;

實驗

1. 基于實例的特征選擇

TabNet比所有其他的模型都要好;
TabNet的效果與全局特征選擇非常接近，它可以找到哪些特征是全局最優(yōu)的;
刪除冗余特征之后,TabNet提升了全局特征選擇;

2. 現(xiàn)實數(shù)據(jù)集上的表現(xiàn)

TabNet在多個數(shù)據(jù)集上的效果都取得了最好的效果;

3. 自監(jiān)督學(xué)習(xí)

無監(jiān)督預(yù)訓(xùn)練顯著提高了有監(jiān)督分類任務(wù)的性能，特別是在未標(biāo)記數(shù)據(jù)集比標(biāo)記數(shù)據(jù)集大得多的情況下；
如上圖所示，在無監(jiān)督的預(yù)訓(xùn)練下，模型收斂更快。快速收斂有助于持續(xù)學(xué)習(xí)和領(lǐng)域適應(yīng).

小結(jié)

本文我們提出了TabNet，一種新的用于表格學(xué)習(xí)的深度學(xué)習(xí)體系結(jié)構(gòu)。TabNet使用一種順序attention機制來選擇語義上有意義的特征子集，以便在每個決策步驟中進(jìn)行處理?；趯嵗奶卣鬟x擇能夠有效地進(jìn)行學(xué)習(xí)，因為模型容量被充分地用于最顯著的特征，并且通過選擇模板的可視化產(chǎn)生更具解釋性的決策。我們證明了TabNet在不同領(lǐng)域的表格數(shù)據(jù)集上的性能優(yōu)于以前的工作。最后，我們展示了無監(jiān)督預(yù)訓(xùn)練對于快速適應(yīng)和提高模型的效果。

參考文獻(xiàn)

TabNet: https://arxiv.org/pdf/1908.07442.pdf

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯本站知識星球“黃博的機器學(xué)習(xí)圈子”（92416895）本站qq群704220115。加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【论文解读】NN如何在表格数据中战胜GBDT类模型！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： win7更改适配器设置没有本地连接解决方
下一篇： foxmail邮件怎样打印日历