當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

NN如何在表格数据中战胜GBDT类模型

發(fā)布時(shí)間：2025/3/8 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 NN如何在表格数据中战胜GBDT类模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

TabNet: Attentive Interpretable Tabular Learning

作者：一元，公眾號(hào)：煉丹筆記

背景

本文提出了一種高性能、可解釋的規(guī)范深度表格數(shù)據(jù)學(xué)習(xí)結(jié)構(gòu)TabNet。號(hào)稱(chēng)吊錘XGBoost和LightGBM等GBDT類(lèi)模型。來(lái)吧，開(kāi)學(xué)！

TabNet使用sequential的attention來(lái)選擇在每個(gè)決策步驟中要推理的特征，使得學(xué)習(xí)被用于最顯著的特征，從而實(shí)現(xiàn)可解釋性和更有效的學(xué)習(xí)。我們證明了TabNet在廣泛的非性能飽和表格數(shù)據(jù)集上優(yōu)于其他變體，并產(chǎn)生了可解釋的特征屬性和對(duì)其全局行為的洞察。

最后，我們展示了表格數(shù)據(jù)的自監(jiān)督學(xué)習(xí)，在未標(biāo)記數(shù)據(jù)豐富的情況下顯著提高了效果。

1. 決策樹(shù)類(lèi)模型在諸多的表格型問(wèn)題中仍然具有非常大的優(yōu)勢(shì)：

對(duì)于表格型數(shù)據(jù)中常見(jiàn)的具有近似超平面邊界的決策流形，它們是表示有效的；
它們的基本形式具有高度的可解釋性（例如，通過(guò)跟蹤決策節(jié)點(diǎn)），并且對(duì)于它們的集成形式有流行的事后可解釋性方法;
訓(xùn)練非常快；

2. DNN的優(yōu)勢(shì)：

有效地編碼多種數(shù)據(jù)類(lèi)型，如圖像和表格數(shù)據(jù);
減輕特征工程的需要，這是目前基于樹(shù)的表格數(shù)據(jù)學(xué)習(xí)方法的一個(gè)關(guān)鍵方面；
從流式數(shù)據(jù)中學(xué)習(xí)；
端到端模型的表示學(xué)習(xí)，這使得許多有價(jià)值的應(yīng)用場(chǎng)景能夠?qū)崿F(xiàn)，包括數(shù)據(jù)高效的域適配；

3. TabNet:

TabNet無(wú)需任何預(yù)處理即可輸入原始表格數(shù)據(jù)，并使用基于梯度下降的優(yōu)化方法進(jìn)行訓(xùn)練，實(shí)現(xiàn)了端到端學(xué)習(xí)的靈活集成。
TabNet使用sequential attention來(lái)選擇在每個(gè)決策步驟中從哪些特征中推理，從而實(shí)現(xiàn)可解釋性和更好的學(xué)習(xí)，因?yàn)閷W(xué)習(xí)能力用于最顯著的特征。這種特征選擇是基于實(shí)例的，例如，對(duì)于每個(gè)輸入，它可以是不同的，并且與其他基于實(shí)例的特征選擇方法不同,TabNet采用了一種深度特征選擇和推理的學(xué)習(xí)體系結(jié)構(gòu)。
TabNet在不同領(lǐng)域的分類(lèi)和回歸問(wèn)題的不同數(shù)據(jù)集上優(yōu)于或等同于其他表格學(xué)習(xí)模型；
TabNet有兩種可解釋性：局部可解釋性，用于可視化特征的重要性及其組合方式；全局可解釋性，用于量化每個(gè)特征對(duì)訓(xùn)練模型的貢獻(xiàn)。
最后，對(duì)于表格數(shù)據(jù)，我們首次通過(guò)使用無(wú)監(jiān)督預(yù)訓(xùn)練來(lái)預(yù)測(cè)掩蔽特征，得到了顯著的性能提升；

類(lèi)似于DTs的DNN building blocks

使用從數(shù)據(jù)中學(xué)習(xí)的稀疏實(shí)例特征選擇；
構(gòu)造一個(gè)連續(xù)的多步驟體系結(jié)構(gòu)，其中每個(gè)步驟有助于基于所選特征的決策的一部分；
通過(guò)對(duì)所選特征的非線性處理來(lái)提高學(xué)習(xí)能力；
通過(guò)更高的維度和更多的步驟來(lái)模擬融合。

我們使用所有的原始數(shù)值特征并且將類(lèi)別特征轉(zhuǎn)化為可以訓(xùn)練的embedding，我們并不考慮全局特征normalization。

在每一輪我們將D維度的特征傳入，其中B是batch size, TabNet的編碼是基于序列化的多步處理, 有N個(gè)決策過(guò)程。在第i步我們輸入第i-1步的處理信息來(lái)決定使用哪些特征，并且輸出處理過(guò)的特征表示來(lái)集成到整體的決策。

實(shí)驗(yàn)

1. 基于實(shí)例的特征選擇

TabNet比所有其他的模型都要好;
TabNet的效果與全局特征選擇非常接近，它可以找到哪些特征是全局最優(yōu)的;
刪除冗余特征之后,TabNet提升了全局特征選擇;

2. 現(xiàn)實(shí)數(shù)據(jù)集上的表現(xiàn)

TabNet在多個(gè)數(shù)據(jù)集上的效果都取得了最好的效果;

3. 自監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督預(yù)訓(xùn)練顯著提高了有監(jiān)督分類(lèi)任務(wù)的性能，特別是在未標(biāo)記數(shù)據(jù)集比標(biāo)記數(shù)據(jù)集大得多的情況下；
如上圖所示，在無(wú)監(jiān)督的預(yù)訓(xùn)練下，模型收斂更快。快速收斂有助于持續(xù)學(xué)習(xí)和領(lǐng)域適應(yīng).

小結(jié)

TabNet，一種新的用于表格學(xué)習(xí)的深度學(xué)習(xí)體系結(jié)構(gòu)。TabNet使用一種順序attention機(jī)制來(lái)選擇語(yǔ)義上有意義的特征子集，以便在每個(gè)決策步驟中進(jìn)行處理。基于實(shí)例的特征選擇能夠有效地進(jìn)行學(xué)習(xí)，因?yàn)槟Ｐ腿萘勘怀浞值赜糜谧铒@著的特征，并且通過(guò)選擇模板的可視化產(chǎn)生更具解釋性的決策。我們證明了TabNet在不同領(lǐng)域的表格數(shù)據(jù)集上的性能優(yōu)于以前的工作。最后，我們展示了無(wú)監(jiān)督預(yù)訓(xùn)練對(duì)于快速適應(yīng)和提高模型的效果。

更多干貨，請(qǐng)關(guān)注微信公眾號(hào)：煉丹筆記

總結(jié)

以上是生活随笔為你收集整理的NN如何在表格数据中战胜GBDT类模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：事半功倍：推荐系统Pre-train预训
下一篇：搜索推荐炼丹笔记：单网络内部集成学习