日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

性能1.55倍于NV 350W RTX!寒武纪发布全新AI训练GPU:8卡并行

發布時間:2023/12/10 综合教程 78 生活家
生活随笔 收集整理的這篇文章主要介紹了 性能1.55倍于NV 350W RTX!寒武纪发布全新AI训练GPU:8卡并行 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

3月21日,中國本土AI創新企業寒武紀正式發布了新款訓練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,集成寒武紀MLU-Link多芯互聯技術,主要面向AI訓練任務。

寒武紀MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內封裝兩個Die,因此可提供兩倍于思元370加速卡的內存、編解碼資源。

架構基于Cambricon MLUarch03,支持AI訓練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數據格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

,內存帶寬614.4GB/s,PCIe 4.0 x16系統接口,整卡最大訓練功耗250W,全高全長雙插槽設計,系統被動散熱。


單卡架構圖

每張加速卡通訊吞吐性能200GB/s,帶寬為PCIe 4.0的大約3.1倍,可高效執行多芯多卡訓練、分布式推理任務。


4卡橋接


單機8卡部署配置


4卡橋接拓撲

根據官方數據,Cambricon NeuWare SDK實測,在常見的4個深度學習網絡模型上,MLU370-X8單卡性能與主流350W RTX GPU相當。

多卡加速,借助MLU-Link多芯互聯技術、Cambricon NeuWare CNCL通訊庫的優化,8卡環境下達到更優的并行加速比,YOLOv3、Transformer、BERT、ResNet101訓練任務中,8卡并行平均性能達350W RTX GPU的155%。

寒武紀未透露對比的NVIDIA 350W RTX GPU是哪一款,從規格來看,350W功耗的目前只有RTX 3090、RTX 3080 Ti。

當然,一個是專用AI加速卡,一個是GPU通用游戲卡,其實沒有太大可比性。

MLU370-X8產品定位中高端,與高端訓練產品思元290、玄思1000相互結合,進一步豐富了寒武紀的訓練算力交付方式,同時與基于思元370芯粒(chiplet)技術構建的MLU370-X4、MLU370-S4智能加速卡協同,形成完整的云端訓練、推理產品組合。


單卡性能對比


8卡性能對比

總結

以上是生活随笔為你收集整理的性能1.55倍于NV 350W RTX!寒武纪发布全新AI训练GPU:8卡并行的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。