【深度学习】围观特斯拉总监把玩MNIST
最近大名鼎鼎的特斯拉AI總監Andrej Karpathy發了篇博客(看來寫博客是個好習慣),叫Deep Neural Nets: 33 years ago and 33 years from now[1]。飯后花了點時間圍觀了一下,寫得確實挺有意思。
1989年的LeNet和MNIST他先嘗試復現了一下深度學習開山模型LeNet,然后嘗試利用這33年人類的新知識去改進模型的效果。他干了這么幾個事情:
Baseline.
2. 把原文的MSE loss換成如今多分類的標配Cross Entropy Loss
eval:?split?train.?loss?9.536698e-06.?error?0.00%.?misses:?0 eval:?split?test?.?loss?9.536698e-06.?error?4.38%.?misses:?873. 首戰失敗,懷疑SGD優化器不給力,換成了AdamW,并使用“大家都知道”的最優學習率3e-4,還加了點weight decay
eval:?split?train.?loss?0.000000e+00.?error?0.00%.?misses:?0 eval:?split?test?.?loss?0.000000e+00.?error?3.59%.?misses:?724. 嘗到甜頭,但發現train/test的差別仍很大,提示可能過擬合。遂略微添加數據增強。
eval:?split?train.?loss?8.780676e-04.?error?1.70%.?misses:?123 eval:?split?test?.?loss?8.780676e-04.?error?2.19%.?misses:?435. 感覺還有過擬合,遂增加dropout,并把tanh激活函數換成了ReLU
eval:?split?train.?loss?2.601336e-03.?error?1.47%.?misses:?106 eval:?split?test?.?loss?2.601336e-03.?error?1.59%.?misses:?32通過一步一步加料,總監成功把33年前經典問題的錯誤率又降低了60%!這幾步雖然常見,但也體現了總監扎實的基本功,試想還有幾個總監能調得動模型呢??!!
總監的錯例,有些看起來不該錯但他還不滿意,又嘗試了一些例如Vision Transformer之類更新潮酷炫的東西,但比較遺憾都沒有再漲點了。最后從本源出發,增加了一些數據,錯誤率進一步降低,達到了1.25%。
eval:?split?train.?loss?3.238392e-04.?error?1.07%.?misses:?31 eval:?split?test?.?loss?3.238392e-04.?error?1.25%.?misses:?24觀察上面的錯例其實大家也能感受到有些錯誤應該是可以搞對的,此時增加數據確實是一個好辦法。但更重要的是,希望大家也能養成總監一樣把結果可視化出來檢視的好習慣!
最后總監總結了一下以2022年的未來人身份把玩33年前數據集的感受
做的事情內核并沒有變,還是可微分的神經網絡、優化那一套
當時的數據集好小(a baby)啊,MNIST只有7000多張,CLIP訓練圖片有400百萬張,而且每張圖的分辨率都大得多
當時網絡好小啊
當時的訓練好慢啊,7000多張圖+這么小的網絡要跑3天,現在總監的Macbook可以90s訓練完
該領域還是有進步的,可以用現在的技巧使錯誤率下降60%
單純增大數據集效果不大,還得配上各種技巧才能駕馭
再往前走得靠大模型了,就得大算力
最后的最后總監展望了一下再過33年那時的人們會怎么看今天的深度學習
除了規模更大,宏觀上網絡估計還像今天這樣
模型肯定會比現在大超級多
那時訓練現在的大網絡估計也只要一兩分鐘
一些細節知識還是會進步的
數據集肯定會變得更大
計算基礎設施估計得變了
最最最后,總監說往后訓基礎模型,甚至模型,的人都會變少了,到2055年估計大家可以用自然語言教模型干一些事情了。
好,圍觀結束,祝大家晚安。
參考資料
[1]
Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/
往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【深度学习】围观特斯拉总监把玩MNIST的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dubbo:RPC原理
- 下一篇: 【深度学习】短袖短裤识别算法冠军方案总结