日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】这千层transformer让我目瞪口呆

發布時間:2025/3/12 pytorch 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】这千层transformer让我目瞪口呆 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者:十方

見過幾層的mlp,也見過幾十層的GoogleNet,還見過上百層的Resnet,上千層的transformer見過沒!這篇論文<DeepNet: Scaling Transformers to 1000 Layers>它來了。它提出了一個簡單有效的方法來訓練"極深"的transformer。這篇論文提出了一個新的標準化方程(DEEPNORM)去修改transformer中的殘差鏈接。該論文有著非常深入的理論分析模型在訓練過程中參數更新是非常穩定的,使得1000層的transformer誕生,并且在各項指標上吊打其他模型。

DEEPNORM

?基于Post-LN的transfomer,該文實現了DEEPNORM(如下圖偽代碼所示)。與Post-LN相比,DEEPNORM在進行layer-norm之前會擴大殘差連接。除此以外,在初始化過程中降低了參數的比例。需要注意的是,該方法只會擴大前饋網絡的權值的規模,以及attention層的投影值。

DEEPNET基于transformer架構,不同的就是用了deepnorm替換每層的post-LN,如下式所示,Gl是第l層attention和feed-forward網絡:

下圖中我們發現對比Post-LN,DeepNet更新更加穩定。

實驗

參考文獻

  • DeepNet: Scaling Transformers to 1000 Layers

https://arxiv.org/pdf/2203.00555.pdf

往期精彩回顧適合初學者入門人工智能的路線及資料下載(圖文+視頻)機器學習入門系列下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印《統計學習方法》的代碼復現專輯 AI基礎下載機器學習交流qq群955171419,加入微信群請掃碼:

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的【深度学习】这千层transformer让我目瞪口呆的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。