日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NN如何在表格数据中战胜GBDT类模型

發布時間:2025/3/8 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NN如何在表格数据中战胜GBDT类模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

TabNet: Attentive Interpretable Tabular Learning

作者:一元,公眾號:煉丹筆記

背景

本文提出了一種高性能、可解釋的規范深度表格數據學習結構TabNet。號稱吊錘XGBoost和LightGBM等GBDT類模型。來吧,開學!

TabNet使用sequential的attention來選擇在每個決策步驟中要推理的特征,使得學習被用于最顯著的特征,從而實現可解釋性和更有效的學習。我們證明了TabNet在廣泛的非性能飽和表格數據集上優于其他變體,并產生了可解釋的特征屬性和對其全局行為的洞察。

最后,我們展示了表格數據的自監督學習,在未標記數據豐富的情況下顯著提高了效果。

1. 決策樹類模型在諸多的表格型問題中仍然具有非常大的優勢:

  • 對于表格型數據中常見的具有近似超平面邊界的決策流形,它們是表示有效的;
  • 它們的基本形式具有高度的可解釋性(例如,通過跟蹤決策節點),并且對于它們的集成形式有流行的事后可解釋性方法;
  • 訓練非常快;

2. DNN的優勢:

  • 有效地編碼多種數據類型,如圖像和表格數據;
  • 減輕特征工程的需要,這是目前基于樹的表格數據學習方法的一個關鍵方面;
  • 從流式數據中學習;
  • 端到端模型的表示學習,這使得許多有價值的應用場景能夠實現,包括數據高效的域適配;

3. TabNet:

  • TabNet無需任何預處理即可輸入原始表格數據,并使用基于梯度下降的優化方法進行訓練,實現了端到端學習的靈活集成。
  • TabNet使用sequential attention來選擇在每個決策步驟中從哪些特征中推理,從而實現可解釋性和更好的學習,因為學習能力用于最顯著的特征。這種特征選擇是基于實例的,例如,對于每個輸入,它可以是不同的,并且與其他基于實例的特征選擇方法不同,TabNet采用了一種深度特征選擇和推理的學習體系結構。
  • TabNet在不同領域的分類和回歸問題的不同數據集上優于或等同于其他表格學習模型;
  • TabNet有兩種可解釋性:局部可解釋性,用于可視化特征的重要性及其組合方式;全局可解釋性,用于量化每個特征對訓練模型的貢獻。
  • 最后,對于表格數據,我們首次通過使用無監督預訓練來預測掩蔽特征,得到了顯著的性能提升;

類似于DTs的DNN building blocks

  • 使用從數據中學習的稀疏實例特征選擇;
  • 構造一個連續的多步驟體系結構,其中每個步驟有助于基于所選特征的決策的一部分;
  • 通過對所選特征的非線性處理來提高學習能力;
  • 通過更高的維度和更多的步驟來模擬融合。

我們使用所有的原始數值特征并且將類別特征轉化為可以訓練的embedding,我們并不考慮全局特征normalization。

在每一輪我們將D維度的特征傳入,其中B是batch size, TabNet的編碼是基于序列化的多步處理, 有N個決策過程。在第i步我們輸入第i-1步的處理信息來決定使用哪些特征,并且輸出處理過的特征表示來集成到整體的決策。

實驗

1. 基于實例的特征選擇

  • TabNet比所有其他的模型都要好;
  • TabNet的效果與全局特征選擇非常接近,它可以找到哪些特征是全局最優的;
  • 刪除冗余特征之后,TabNet提升了全局特征選擇;

2. 現實數據集上的表現

  • TabNet在多個數據集上的效果都取得了最好的效果;

3. 自監督學習

  • 無監督預訓練顯著提高了有監督分類任務的性能,特別是在未標記數據集比標記數據集大得多的情況下;
  • 如上圖所示,在無監督的預訓練下,模型收斂更快。快速收斂有助于持續學習和領域適應.

小結

TabNet,一種新的用于表格學習的深度學習體系結構。TabNet使用一種順序attention機制來選擇語義上有意義的特征子集,以便在每個決策步驟中進行處理。基于實例的特征選擇能夠有效地進行學習,因為模型容量被充分地用于最顯著的特征,并且通過選擇模板的可視化產生更具解釋性的決策。我們證明了TabNet在不同領域的表格數據集上的性能優于以前的工作。最后,我們展示了無監督預訓練對于快速適應和提高模型的效果。

更多干貨,請關注微信公眾號:煉丹筆記

總結

以上是生活随笔為你收集整理的NN如何在表格数据中战胜GBDT类模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。