日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!

發(fā)布時間:2025/3/12 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

卷友們好,我是rumor。

我直接好家伙。

午休摸魚時打開Arxiv看每日更新,一下就被閃瞎了。

英偉達、斯坦福聯(lián)合MSR,共同訓出了10000億參數(shù)的GPT,比1750億的GPT3還高出了一個量級

重要的是,這個訓練用了3072個A100,一個售價約10萬人民幣,我都不敢換算。

Anyway,人窮志不窮,訓不起,論文我還看不起嗎?

題目:Efficient Large-Scale Language Model Training on GPU Clusters 地址:https://arxiv.org/pdf/2104.04473.pdf 代碼:https://github.com/nvidia/megatron-lm

這篇論文講了啥

這篇文章其實很工程,主要延續(xù)威震天的一些策略,繼續(xù)探索了更大模型的分布式訓練。

數(shù)據(jù)并行的方法很多同學都知道,就是每個worker上都加載全量模型,計算完不同數(shù)據(jù)后匯總更新。但在訓練大模型的過程中,因為參數(shù)量的增多,不可避免的得進行模型并行,也就是把不同的層或者tensor放在不同機器上,這就需要server、GPU之間進行更多通訊,而由于各種原因,各種成本(比如通信時間、同步時間)都會呈幾倍增長,直接影響到訓練速度。

所以,如何組合各個分布式訓練方法,最大化訓練吞吐、同時保持訓練效果是訓練大模型的難點之一。

經(jīng)過努力,英偉達成功地讓通信速度的增長接近線性,效率比DeepSpeed框架高出不少

遺憾的是,作者并沒有展示這個語言模型的效果。

但從GPT3的成功來看,驚喜還是會有的,估計又要等到OpenAI來揭開了。

這樣下去會被榨干嗎

前段時間我一度覺得做更大更強的模型這條路是不可行的,一是以這種暴力方式訓下去總有飽和的時候,二是即使浪費那么多資源訓出來的模型在實際場景也用不上。

但我今天又有一些新的思考,雖然預見大transformer模型的表現(xiàn)可能會有飽和的一天,但目前并不知道這個天花板在哪里,說不定我們現(xiàn)在還在山腳或者山腰上,這些資金耗費巨大的預訓練去探索上界還是有價值的。另外,GPT-3已經(jīng)在一些場景上進行落地了,我甚至想能不能直接輸入任務描述,讓GPT-3給我輸出一批訓練數(shù)據(jù),說不定也可以。

方向不同,各有千秋。不斷突破現(xiàn)有模型的天花板是有價值的,做出性價比高的小模型也是有價值的。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習的數(shù)學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。