當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型

發(fā)布時(shí)間：2023/11/29 综合教程 57 生活家

生活随笔收集整理的這篇文章主要介紹了 512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

11月8日，阿里巴巴達(dá)摩院公布了多模態(tài)大模型“M6”的最新進(jìn)展，其參數(shù)已從萬億躍遷至10萬億，成為全球最大的AI預(yù)訓(xùn)練模型。

與傳統(tǒng)AI相比，大模型擁有成百上千倍“神經(jīng)元”數(shù)量，認(rèn)知和創(chuàng)造能力也更勝一籌，被普遍認(rèn)為是未來的“基礎(chǔ)模型”。

但是，大模型的算力成本相當(dāng)高昂，比如訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗，能讓一輛汽車在地月之間往返一趟。

今年5月，通過專家并行策略及優(yōu)化技術(shù)，達(dá)摩院M6團(tuán)隊(duì)將萬億模型能耗降低超過80％，效率提升近11倍。

10月，M6再次突破業(yè)界極限，使用512顆GPU，在10天內(nèi)就訓(xùn)練出了具有可用水平的10萬億模型，相比去年發(fā)布的大模型GPT-3，M6實(shí)現(xiàn)了同等參數(shù)規(guī)模，能耗卻只有1％。

另一方面，AI大模型擴(kuò)展到千億及以上參數(shù)的超大規(guī)模時(shí)，很難放在一臺(tái)機(jī)器上，為此達(dá)摩院在阿里云PAI自研Whale框架上搭建了MoE模型，并通過更細(xì)粒度的CPU offload技術(shù)，最終實(shí)現(xiàn)將10萬億參數(shù)放進(jìn)512張GPU：

自研Whale分布式深度學(xué)習(xí)訓(xùn)練框架，針對(duì)數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進(jìn)行了統(tǒng)一架構(gòu)設(shè)計(jì)，讓用戶在僅僅添加幾行API調(diào)用的情況下就可以實(shí)現(xiàn)豐富的分布式并行策略。

在Whale架構(gòu)中實(shí)現(xiàn)Mixture-of-Experts（MoE）專家并行策略，在擴(kuò)展模型容量、提升模型效果的基礎(chǔ)上，不顯著增加運(yùn)算FLOPs（每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)），從而實(shí)現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。

在自研的分布式框架Whale中通過更細(xì)粒度的CPU offload，解決了有限資源放下極限規(guī)模的難題，并通過靈活地選擇offload的模型層，進(jìn)一步地提高GPU利用率。

此外，針對(duì)訓(xùn)練效率問題，M6團(tuán)隊(duì)設(shè)計(jì)了Pseudo-to-Real（共享解除）機(jī)制，即利用訓(xùn)練好的共享參數(shù)模型初始化大模型，讓收斂效率進(jìn)一步提升7倍，解決大模型訓(xùn)練速度慢的問題。

對(duì)比不使用該機(jī)制，預(yù)訓(xùn)練達(dá)到同樣loss用時(shí)僅需6％；和此前萬億模型相比，訓(xùn)練樣本量?jī)H需40％。

今年，大模型首次支持雙11，應(yīng)用包括但不限于：

－ M6在犀牛智造為品牌設(shè)計(jì)的服飾已在淘寶上線；

－憑借流暢的寫作能力，M6正為天貓?zhí)摂M主播創(chuàng)作劇本；

－依靠多模態(tài)理解能力，M6正在增進(jìn)淘寶、支付寶等平臺(tái)的搜索及內(nèi)容認(rèn)知精度。

M6設(shè)計(jì)的飛行汽車

未來，M6將積極探索與科學(xué)應(yīng)用的結(jié)合，通過AI for science讓大模型的潛力充分發(fā)揮，并加強(qiáng)M6與國產(chǎn)芯片的軟硬一體化研究。

目前，達(dá)摩院聯(lián)合阿里云已推出，為大模型訓(xùn)練及應(yīng)用提供完備工具，首次讓大模型實(shí)現(xiàn)“開箱即用”，算法人員及普通用戶均可方便地使用平臺(tái)。

總結(jié)

以上是生活随笔為你收集整理的512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： #美洲#夏威夷有哪些海滩是中国人不太适合
下一篇：内存供需情况变天：明年上半年便宜15%

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

综合教程

512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型

總結(jié)