當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】这千层transformer让我目瞪口呆

發(fā)布時(shí)間：2025/3/12 pytorch 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】这千层transformer让我目瞪口呆小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者：十方

見過幾層的mlp，也見過幾十層的GoogleNet，還見過上百層的Resnet，上千層的transformer見過沒！這篇論文<DeepNet: Scaling Transformers to 1000 Layers>它來了。它提出了一個(gè)簡(jiǎn)單有效的方法來訓(xùn)練"極深"的transformer。這篇論文提出了一個(gè)新的標(biāo)準(zhǔn)化方程(DEEPNORM)去修改transformer中的殘差鏈接。該論文有著非常深入的理論分析模型在訓(xùn)練過程中參數(shù)更新是非常穩(wěn)定的，使得1000層的transformer誕生，并且在各項(xiàng)指標(biāo)上吊打其他模型。

DEEPNORM

?基于Post-LN的transfomer，該文實(shí)現(xiàn)了DEEPNORM(如下圖偽代碼所示)。與Post-LN相比，DEEPNORM在進(jìn)行l(wèi)ayer-norm之前會(huì)擴(kuò)大殘差連接。除此以外，在初始化過程中降低了參數(shù)的比例。需要注意的是，該方法只會(huì)擴(kuò)大前饋網(wǎng)絡(luò)的權(quán)值的規(guī)模，以及attention層的投影值。

DEEPNET基于transformer架構(gòu)，不同的就是用了deepnorm替換每層的post-LN，如下式所示,Gl是第l層attention和feed-forward網(wǎng)絡(luò):

下圖中我們發(fā)現(xiàn)對(duì)比Post-LN，DeepNet更新更加穩(wěn)定。

實(shí)驗(yàn)

參考文獻(xiàn)

DeepNet: Scaling Transformers to 1000 Layers

https://arxiv.org/pdf/2203.00555.pdf

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請(qǐng)掃碼：

與50位技術(shù)專家面對(duì)面20年技術(shù)見證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的【深度学习】这千层transformer让我目瞪口呆的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：用python画三维图、某区域的高程,p
下一篇：【深度学习】研究揭秘：神经网络越大、表现

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

【深度学习】这千层transformer让我目瞪口呆

總結(jié)