【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!
卷友們好,我是rumor。
我直接好家伙。
午休摸魚時打開Arxiv看每日更新,一下就被閃瞎了。
英偉達、斯坦福聯合MSR,共同訓出了10000億參數的GPT,比1750億的GPT3還高出了一個量級。
重要的是,這個訓練用了3072個A100,一個售價約10萬人民幣,我都不敢換算。
Anyway,人窮志不窮,訓不起,論文我還看不起嗎?
題目:Efficient Large-Scale Language Model Training on GPU Clusters 地址:https://arxiv.org/pdf/2104.04473.pdf 代碼:https://github.com/nvidia/megatron-lm這篇論文講了啥
這篇文章其實很工程,主要延續威震天的一些策略,繼續探索了更大模型的分布式訓練。
數據并行的方法很多同學都知道,就是每個worker上都加載全量模型,計算完不同數據后匯總更新。但在訓練大模型的過程中,因為參數量的增多,不可避免的得進行模型并行,也就是把不同的層或者tensor放在不同機器上,這就需要server、GPU之間進行更多通訊,而由于各種原因,各種成本(比如通信時間、同步時間)都會呈幾倍增長,直接影響到訓練速度。
所以,如何組合各個分布式訓練方法,最大化訓練吞吐、同時保持訓練效果是訓練大模型的難點之一。
經過努力,英偉達成功地讓通信速度的增長接近線性,效率比DeepSpeed框架高出不少。
遺憾的是,作者并沒有展示這個語言模型的效果。
但從GPT3的成功來看,驚喜還是會有的,估計又要等到OpenAI來揭開了。
這樣下去會被榨干嗎
前段時間我一度覺得做更大更強的模型這條路是不可行的,一是以這種暴力方式訓下去總有飽和的時候,二是即使浪費那么多資源訓出來的模型在實際場景也用不上。
但我今天又有一些新的思考,雖然預見大transformer模型的表現可能會有飽和的一天,但目前并不知道這個天花板在哪里,說不定我們現在還在山腳或者山腰上,這些資金耗費巨大的預訓練去探索上界還是有價值的。另外,GPT-3已經在一些場景上進行落地了,我甚至想能不能直接輸入任務描述,讓GPT-3給我輸出一批訓練數據,說不定也可以。
方向不同,各有千秋。不斷突破現有模型的天花板是有價值的,做出性價比高的小模型也是有價值的。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【NLP】10000亿参数!英伟达用3072块A100训出史上最大最贵GPT!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搜狐视频怎么投屏
- 下一篇: 温州大学《深度学习》课程课件(四、浅层神