當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】围观特斯拉总监把玩MNIST

發布時間：2025/3/12 pytorch 32 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】围观特斯拉总监把玩MNIST 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近大名鼎鼎的特斯拉AI總監Andrej Karpathy發了篇博客（看來寫博客是個好習慣），叫Deep Neural Nets: 33 years ago and 33 years from now^[1]。飯后花了點時間圍觀了一下，寫得確實挺有意思。

1989年的LeNet和MNIST

他先嘗試復現了一下深度學習開山模型LeNet，然后嘗試利用這33年人類的新知識去改進模型的效果。他干了這么幾個事情：

Baseline.

eval:?split?train.?loss?4.073383e-03.?error?0.62%.?misses:?45 eval:?split?test?.?loss?2.838382e-02.?error?4.09%.?misses:?82

2. 把原文的MSE loss換成如今多分類的標配Cross Entropy Loss

eval:?split?train.?loss?9.536698e-06.?error?0.00%.?misses:?0 eval:?split?test?.?loss?9.536698e-06.?error?4.38%.?misses:?87

3. 首戰失敗，懷疑SGD優化器不給力，換成了AdamW，并使用“大家都知道”的最優學習率3e-4，還加了點weight decay

eval:?split?train.?loss?0.000000e+00.?error?0.00%.?misses:?0 eval:?split?test?.?loss?0.000000e+00.?error?3.59%.?misses:?72

4. 嘗到甜頭，但發現train/test的差別仍很大，提示可能過擬合。遂略微添加數據增強。

eval:?split?train.?loss?8.780676e-04.?error?1.70%.?misses:?123 eval:?split?test?.?loss?8.780676e-04.?error?2.19%.?misses:?43

5. 感覺還有過擬合，遂增加dropout，并把tanh激活函數換成了ReLU

eval:?split?train.?loss?2.601336e-03.?error?1.47%.?misses:?106 eval:?split?test?.?loss?2.601336e-03.?error?1.59%.?misses:?32

通過一步一步加料，總監成功把33年前經典問題的錯誤率又降低了60%！這幾步雖然常見，但也體現了總監扎實的基本功，試想還有幾個總監能調得動模型呢？？！！

總監的錯例，有些看起來不該錯

但他還不滿意，又嘗試了一些例如Vision Transformer之類更新潮酷炫的東西，但比較遺憾都沒有再漲點了。最后從本源出發，增加了一些數據，錯誤率進一步降低，達到了1.25%。

eval:?split?train.?loss?3.238392e-04.?error?1.07%.?misses:?31 eval:?split?test?.?loss?3.238392e-04.?error?1.25%.?misses:?24

觀察上面的錯例其實大家也能感受到有些錯誤應該是可以搞對的，此時增加數據確實是一個好辦法。但更重要的是，希望大家也能養成總監一樣把結果可視化出來檢視的好習慣！

最后總監總結了一下以2022年的未來人身份把玩33年前數據集的感受

做的事情內核并沒有變，還是可微分的神經網絡、優化那一套

當時的數據集好小（a baby）啊，MNIST只有7000多張，CLIP訓練圖片有400百萬張，而且每張圖的分辨率都大得多

當時網絡好小啊

當時的訓練好慢啊，7000多張圖+這么小的網絡要跑3天，現在總監的Macbook可以90s訓練完

該領域還是有進步的，可以用現在的技巧使錯誤率下降60%

單純增大數據集效果不大，還得配上各種技巧才能駕馭

再往前走得靠大模型了，就得大算力

最后的最后總監展望了一下再過33年那時的人們會怎么看今天的深度學習

除了規模更大，宏觀上網絡估計還像今天這樣

模型肯定會比現在大超級多

那時訓練現在的大網絡估計也只要一兩分鐘

一些細節知識還是會進步的

數據集肯定會變得更大

計算基礎設施估計得變了

最最最后，總監說往后訓基礎模型，甚至模型，的人都會變少了，到2055年估計大家可以用自然語言教模型干一些事情了。

好，圍觀結束，祝大家晚安。

參考資料

[1]

Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》（黃海廣主講）機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【深度学习】围观特斯拉总监把玩MNIST的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Dubbo：RPC原理
下一篇：【深度学习】短袖短裤识别算法冠军方案总结

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

【深度学习】围观特斯拉总监把玩MNIST

參考資料

總結