日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【机器学习】为什么GBDT可以超越深度学习

發布時間:2025/3/12 pytorch 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】为什么GBDT可以超越深度学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天的討論比較玄學,至于為什么用曹雪芹的詩當封面,看完文章明白啦。

目錄

  • 背景

  • 玄學立論

  • 娓娓道來

  • 后話

背景

之前在知乎上回答了一個類似的問題,他們問為什么很多領域的比賽數據集上的GBDT效果那么好(比神經網絡)。

回答這個問題前,先引入一個概念,目標的非線性。

非線性,應該是從原始輸入到目標決策之間gap的刻畫,用博大精深的中文語言為例:

比如垃圾話,就很直白,無非是問候幾個人物,幾個器官,幾個行為。可以望文生義。

但是陰陽話,這個就非常難了。

感恩兩字,你要看他真的感恩,還是在那里只能咸因。威武支持有希望了,你看他是不是在叼飛盤,這就很難。

這些都要看具體的場景,人物和環境,這就叫非線性。

人的解決問題,大概就是把一個復雜目標化簡解決的能力,目的是降低問題的非線性,把一個問題去解決的過程。具體到數據挖掘上,應該是把特征表達出來的能力。

具體到問題,非線性比較高的場景有,序列建模,大規模離散ID建模,陰陽話識別,語音的特征表達。這些都是非線性非常高的場景,基本都超出了手動解決輸入到目標之間gap的能力。

玄學立論

先用一個玄學的圖來立論。

簡而言之當你的認知超越問題的難度時候,可以通過一些方法把問題去復雜化,一般GBDT的效果會比NN好。

可這話真的太晦澀了。

我們回到之前的知乎上回答看看吧。

娓娓道來

先來幾個問題作為引子吧,在回答為什么在實際的kaggle比賽中,GBDT效果非常好?

Q1.kaggle上的數據和賽題有什么特點?

Q2.GBDT和NN有什么特點?

Q3.為什么你很少看見Kaggle上用SVM LR立大功?

Q4.怎么根據數據特點進行模型選型?

Q5.近三年,有哪些非CV和NLP,Speech的比賽上印證了NN和GBDT的江湖地位之爭


一句話來回答,本質上還是由數據和模型決定的。

再來說一下為什么kaggle里給你一種GBDT滿天飛的感覺。

來到Q1kaggle上的數據和賽題有什么特點?

跟現在研究生入學,大部分用深度學習懟圖片文本不一樣,以前kaggle賽題,尤其是2019年前,有很大比例是工業界的表格數據。比如各種實際的預測預估任務,CTR,信用評分,銷量預測等。他們有如下幾個特點。

1.工業界的數據臟。異常點,缺失值,歷史遺留問題造成的數據痕跡等等。

2.工業界的數據可解釋性很強,每一列有真實的業務含義。

在以上背景下,再來到Q2.GBDT和NN有什么特點?

我們理一下樹模型天然的優點

1.天然的魯棒性,能自動從異常點,缺失值學到信息。不需要歸一化。直接上手一把梭哈。

2.樹可以半自動化地完成一些特征非線性表達的工作,而且基于貪心切分+采樣等抗過擬合手段,能比較好的挖掘數據的非線性。

3.樹的可解釋性很好,能生產特征重要性,幫助你理解數據,改善特征工程。一個經典的套路是思考topN特征背后的邏輯,并圍繞他們進行特征工程。

我們理一下NN模型的優點:

1.全自動化的特征工程和登峰造極的非線性表達能力,在數據表征范式統一,語義含義統一的稠密數據上(典型文本圖像)上,NN一個打十個。另外,典型的像ID序列這種,人很難做出花來。也就是Bag of words或者借用embedding表達一下,還有一半是NN的功勞。

2.NN模型容量極大,在數據量的加持上,放大了1的優勢。

給你們整個表吧


優勢劣勢
GBDT1.魯棒,異常點,缺失值都是可以學習的信息
2.適中的非線性能力,在一定范圍內是優勢3.可解釋性很好,可以幫你優化特征工程
1.非線性表達能力有限,很難在文本圖像上有用。
2.數據量帶來的邊際增益不大,容易觸及天花板。
NN1.全自動化的特征工程
2.模型容量大,可以利用數據量的優勢
1.異常值敏感,依賴手動處理
2.不可解釋,改進迭代的過程有點像蒙特卡洛,措施和結果的路徑太遠。3.過強的非線性中隱含過擬合和噪音。

但是看起來LGB的優點在其他模型也有,那么Q3為什么不是SVM和LR?

1.這兩種模型獲取非線性的方式太粗暴了,有種大炮打蚊子的感覺。依靠kernel強行把VC維提高,帶來的噪聲特別多,有用信息很少,并且kernal是有先驗的,很容易被人設的參數帶跑偏。這在實際業務數據中是非常致命的。

2.理論上LR+完美的特征工程可以很強,但是太難了,又不是人人都是特征工程大師。早期鳳巢億級特征跑LR效果特別好逐漸成為傳說。

說了那么多,那么我們到Q4.怎么根據數據特點進行模型選型?

前面講了很多了,大概可以從這4方面來的。A.數據量大小 B.數據到預測目標的非線性C.單列數據可解釋性D.特征工程天花板高低

XGB/LGB/CTB在最后兩個上很有優勢。NN在前兩個方面很有優勢。


Q5.近三年,有哪些非CV和NLP,Speech的比賽上印證了NN和GBDT的江湖地位之爭

NN勝出的比賽

第一個

Google Brain - Ventilator Pressure Prediction

這個比賽是醫學數據,表結構。干的事情是根據呼吸機的呼吸閥百分比來預測壓力。

Transfoermer+特征工程在排行榜上單模型可以殺到金牌。

示例代碼:
TensorFlow Transformer - [0.112]

第二個

Riiid Answer Correctness Prediction

這個題目是根據學生歷史學習情況,預測做題表現。

Transfoermer+特征工程勝出。

示例代碼:

Riiid LGBM bagging2 + SAKT =0.781

GBDT完勝的比賽。

這部分就比較多了,不詳細介紹了。

IEEE-CIS Fraud Detection | Kaggle

Elo Merchant Category Recommendation

Home Credit Default Risk

后話

好風憑借力,送我上青云。

力,就是人的主觀能動性。

風,是模型本身的潛力。

風好不好,要看具體的問題。主觀能動性的力量很強,但也是有天花板的。

在合適的問題上,選擇合適的模型,發揮你的主觀能動性。

這大概也是大部分問題的解決方式吧。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

本站qq群955171419,加入微信群請掃碼:

總結

以上是生活随笔為你收集整理的【机器学习】为什么GBDT可以超越深度学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美精品a区 | 国内成人精品视频 | 国产福利小视频 | 无码精品a∨在线观看中文 福利片av | 日韩精品一区二区三区在线 | 日韩欧美成人一区二区三区 | 国产精品毛片 | 97精品熟女少妇一区二区三区 | 欧美日本高清视频 | 精品少妇一区二区三区免费观 | 奇米一区二区三区 | 午夜精品欧美 | 精品乱 | 超碰97在线免费 | 91成年视频 | 国产黄色一级片 | 国产尤物av尤物在线看 | 亚洲射吧 | 超碰97干 | 美梦视频大全在线观看高清 | 黄色一级国产 | 色姑娘天天操 | 久久久久久久久久久91 | 久久丝袜美腿 | a激情| 激情五月俺也去 | 每日在线观看av | 欧美一级生活片 | 日本少妇作爱视频 | 国产激情综合五月久久 | 国产成人精品一二三区 | 性色网站 | 激情小视频 | 国产农村妇女精品一区二区 | 亚洲激情a| 欧美性生活在线视频 | 日皮视频网站 | 欧美精品一区二区免费看 | 精品99在线 | 久久久123| 伊人春色在线观看 | 18视频在线观看男男 | 91伊人网| 亚洲美女性生活视频 | 亚洲成人精品一区二区三区 | 国产一区二区三区www | 91网站免费在线观看 | 亚洲一区视频在线播放 | 久久成人国产 | 狠狠操你 | 在线播放中文字幕 | 久久一级免费视频 | 综合av第一页 | 肉体粗喘娇吟国产91 | 亚洲红桃视频 | 精品自拍第一页 | 青青草免费在线观看 | 免费观看a视频 | 国产极品美女高潮无套在线观看 | 欧美日韩高清不卡 | 美女131爽爽爽做爰视频 | 成人精品视频一区二区三区尤物 | 五十路六十路七十路熟婆 | 欧美午夜一区 | 欧美三个黑人玩3p | 久久久久久福利 | 黄色片在线免费观看视频 | 在线观看免费小视频 | sese在线| 色涩视频在线观看 | 亚洲一区二区三区四区 | 成人免费xxxxx在线观看 | 精品国产乱码久久久久夜深人妻 | 邻居校草天天肉我h1v1 | 蜜臀av免费在线观看 | 日本一区二区免费在线观看 | 久久性感美女视频 | 国产天堂第一区 | 秋霞影院午夜 | 国产精品视频一区在线观看 | 加勒比在线免费视频 | 亚洲一区二区中文字幕 | 亚洲日本网站 | 正在播放久久 | 亚洲成人网av | 99热最新网址 | 免费看黄色一级片 | 日韩欧美国产网站 | 夜夜操天天 | 深夜成人在线观看 | 国产精品久久久久久久 | 日本黄色大片在线观看 | 国产亚洲精久久久久久无码77777 | 影音先锋啪啪 | 污视频网站免费在线观看 | 少妇的被肉日常np | 欧美性生活一区 | 欧美女同在线 | 综合网在线视频 |