日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

1000层的Transformer,诞生了!

發布時間:2024/7/5 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 1000层的Transformer,诞生了! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

賣萌屋今日學術精選

大家好,我是賣萌醬。

今天下午賣萌屋作者群里一位MILA實驗室的大佬在臨睡前(蒙特利爾時間凌晨0點半)甩出來一篇論文:

大佬表示太困了,肝不動了,于是賣萌醬左手抄起一罐咖啡,右手接過論文就開始肝了,必須第一時間分享給賣萌屋的讀者小伙伴們!

論文鏈接:
https://arxiv.org/pdf/2203.00555.pdf

首先,把Transformer模型訓深最大的問題是什么?

耗顯存?

訓練慢?

都不是!最大的問題是壓根就不收斂啊...

所以這篇論文最關鍵的貢獻就是提出了一種新的Normalization方式——DeepNorm,有效解決了Transformer訓練困難的問題。

其實早在2019年,就有研究者針對Transformer訓練困難的問題,提出了Pre-LN來提升Transformer的訓練穩定性,但是隨后有人發現,Pre-LN會導致模型底層的梯度比頂層的還要大,這顯然是不合理的,因此往往訓練出的模型效果不如傳統的Post-LN。

盡管后續也有一些補丁來試圖解決這些問題,但這些既有的嘗試都只能讓Transformer的模型深度最多訓練到幾百層,始終無法突破千層的天花板。

本文提出的DeepNorm,則成功打破了這個天花板。

DeepNorm

從以上DeepNorm偽代碼實現中,可以看到這確實是simple but effective的方法,作者也給出了幾個不同場景下的參數經驗取值。

效果層面,作者在機器翻譯benchmark上做了實驗:

可以看到隨著模型深度從10層到100層再到1000層,機器翻譯BLEU指標持續上升。

而在與前人工作的比較上,200層的DeepNet(3.2B參數量)比Facebook M2M 48層的矮胖大模型(12B參數量)有足足5個點的BLEU值提升。

此外,作者表示將來會嘗試將DeepNet往更多NLP任務上遷移(包括預訓練語言模型),期待DeepNet能給NLP帶來下一波春天!

上期回顧:
別再雙塔了!谷歌提出DSI索引,檢索效果吊打雙塔,零樣本超BM25!

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的1000层的Transformer,诞生了!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。