寒武纪发布边缘AI芯片思元220,性能优于英伟达Xavier NX两倍
按照寒武紀公布的參數(shù),思元 220 參數(shù)性能比肩英偉達去年發(fā)布的 Jetson 系統(tǒng)級模塊——AGX Xavier 和上周發(fā)布 Jetson Xavier NX。
在功耗上勝出 AGX Xavier,在計算速度上優(yōu)于 Xavier NX。
11 月 14 日機器之心消息,寒武紀副總裁劉道福在深圳發(fā)布思元系列邊緣端 AI 芯片「思元 220」和思元 220-M.2 邊緣加速卡。
思元 220 的問世, 標志著寒武紀已經(jīng)具備了從終端 (寒武紀 1A、1H、1M 處理器 IP)、邊緣端 (思元 220 芯片) 到云端 (思元 100、思元 270 芯片) 完整的智能芯片產(chǎn)品線。
最新發(fā)布的思元 220 芯片采用了寒武紀在處理器架構(gòu)領(lǐng)域的一系列創(chuàng)新性技術(shù)——寒武紀最新一代智能處理器 MLUv02,實現(xiàn):
最大 32TOPS(INT4)算力,而功耗僅 10W。
對比英偉達在去年發(fā)布的 Jetson 系統(tǒng)級模塊——AGX Xavier 和上周發(fā)布 Jetson Xavier NX。
AGX Xavier 有 10W/15W/30W 三種選擇,神經(jīng)網(wǎng)絡(luò)運算輸出為 32TOPS,可應(yīng)付多達四路的 HEFC 4K 、60fps 視頻流。在功耗上有待進一步提升。
在功耗上有待進一步提升。
而就在上周,英偉達進一步推出 Jetson 的最新成員 Jetson Xavier NX,號稱「全球最小邊緣超算」。
可提供高達 14 TOPS(功耗為 10W 時)或 21 TOPS(功耗為 15W 時)的性能,能夠并行運行多個神經(jīng)網(wǎng)絡(luò),并在與 Nano 同樣尺寸(70x45mm)的小巧外形中同時處理來自多個高分辨率傳感器的數(shù)據(jù)。
Xavier NX 將于明年 3 月開始發(fā)售,價格 399 美元。雖主打邊緣超算,但這個價格有些讓人望而卻步。
說回思元 220,據(jù)介紹,它可提供 16/8/4 位可配置的定點運算,客戶可以根據(jù)實際應(yīng)用靈活的選擇運算類型來獲得卓越的人工智能推理性能。
在軟件方面,通過端云一體的軟件平臺,思元 220 繼續(xù)支持寒武紀 Neuware 軟件工具鏈,支持業(yè)內(nèi)各主流編程框架,包括 Tensorflow,Caffe,mxnet,以及 pytorch 等。
思元 220 是一款專門用于深度學習的 SOC 邊緣加速芯片,采用 TSMC 16nm 工藝,它具有高算力,低功耗和豐富的 I/O 接口。
基于思元 220,寒武紀前期面向市場推出小尺寸的 M.2 加速卡,未來會推出更高算力的產(chǎn)品形態(tài)。
思元 220-M.2
思元 220-M.2 邊緣加速卡在尺寸為 U 盤大小的卡片上實現(xiàn)了 16TOPS(INT4)或 8TOPS(INT8)的算力。客戶可以通過標準的 M.2 接口快速部署到已有的業(yè)務(wù)中實現(xiàn)業(yè)務(wù)的智能升級和邊緣加速解決方案。
寒武紀表示,面向未來,針對不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景。寒武紀將持續(xù)投資,推出更多的 AI 處理器,面向全場景持續(xù)提供更先進靈活、快速高效、性能卓越 AI 算力產(chǎn)品及服務(wù)。
1
邊緣端為何重要
活動現(xiàn)場,寒武紀副總裁劉道福認為:相比數(shù)據(jù)中心計算或者說云計算,邊緣計算有幾個優(yōu)勢:
1)大幅降低傳輸成本。
在很多如電力、能源等工業(yè)領(lǐng)域,網(wǎng)絡(luò)條件并不好,并且通訊基礎(chǔ)設(shè)施的改造成本很高,因此數(shù)據(jù)直接在邊緣進行處理,處理完的數(shù)據(jù)直接用于邊緣決策,或者有效信息傳回云端集中決策,這都可以減少傳輸成本。
2)大幅降低延時。
邊緣計算往往具有實時的要求,因為要對各種設(shè)備進行實時決策,而傳統(tǒng)的云計算,由于網(wǎng)絡(luò)延時,很難做到實時。
3)保護數(shù)據(jù)隱私和安全。
邊緣計算可以無需將數(shù)據(jù)或者原始數(shù)據(jù)傳回云端,從而可以大大保護數(shù)據(jù)的安全和隱私,減少數(shù)據(jù)泄漏。
在昨天的報道《繼英偉達最小邊緣超算,英特爾再推 10 倍提升 VPU,終端 AI 芯片創(chuàng)業(yè)壓力加劇》里,我們也談到,邊緣智能,作為人工智能的最后一公里,很長一段時間里被創(chuàng)業(yè)者視為得以繞開巨頭打壓的藍海市場,但今年市場被催熟的趨勢明顯,英特爾 Nervana、英偉達 Jeston 系列、以及谷歌 Coral 和華為鯤鵬等巨頭逐步進場收割,AI 芯片創(chuàng)業(yè)生態(tài)競爭加劇。
2
云邊終三端布局
除了目前云邊結(jié)合的思元系列,寒武紀在更早推出的是終端產(chǎn)品線:終端 IP 處理器系列。
從第一代產(chǎn)品,2016 年推出的首個商用深度學習處理器 Cambrion-1A,到 17 年面向計算機視覺領(lǐng)域?qū)S玫亩幚砥?Cambricon-1H(Cambricon-1H8、Cambricon-1H16),再到延續(xù)了前兩代產(chǎn)品完備性優(yōu)點的第三代最新產(chǎn)品,面向本地訓練的 Cambricon-1M。
采用 7nm 臺積電工藝的 Cambricon-1M,性能十倍超越于已被廣泛使用各大移動手機終端的 Cambricon-1A。可以實現(xiàn) 5TOPS/W 能效比,單個處理器核即可支持 CNN、RNN、SOM 等多樣化的深度學習模型,更進一步支持 SVM、k-NN、k-Means、決策樹等經(jīng)典機器學習算法。
科大訊飛就曾在發(fā)布會上披露,寒武紀處理器在語音智能處理的測試結(jié)果,顯示出了能耗效率上的優(yōu)越性。其領(lǐng)先于競爭對手的云端 GPU 方案至少 5 倍,語音本地識別準確率相對于傳統(tǒng)處理器也有 9.8% 的提升。
IP 處理器成名的寒武紀在終端產(chǎn)品不斷成熟之后,緊接著推出云端芯片,本次思元系列的前兩款產(chǎn)品:思元 100 和思元 270。
回顧這兩款云端芯片在實際運用中,均表現(xiàn)出如下幾點共同的優(yōu)勢:
- 作為通用處理器,支持各類深度學習技術(shù),支持多模態(tài)智能處理(視覺、語音和自然語言處理),應(yīng)用領(lǐng)域廣泛;
- 從指令集和架構(gòu)角度來看,相比于 GPU,對于在深度學習和人工智能場景中表現(xiàn)出了更高的效能比;
- 配套軟件開發(fā)環(huán)境完善,用戶體驗良好;
- 為「端云一體「策略而開發(fā)的最佳執(zhí)行者。
此次發(fā)布的思元 220,更是旨在彌補市場內(nèi)邊緣端加速方案的空白而存在,同時也徹底完善了寒武紀產(chǎn)品線中邊緣端芯片的空白。
寒武紀借助由于人口因素帶來的數(shù)據(jù)優(yōu)勢,更加擅長于訓練,因此多款芯片均可以看出技術(shù)優(yōu)勢帶來的側(cè)重點在于訓練。
目前寒武紀無論是云端,終端,還是邊緣芯片,都采用統(tǒng)一的處理器架構(gòu)和指令集,以及統(tǒng)一的軟件棧。
這三個領(lǐng)域的生態(tài)可以相互促進,形成正循環(huán)。云端提供了完整的開發(fā),調(diào)試,調(diào)優(yōu)的軟件,云端開發(fā)好的程序,可以很方便快速的部署到終端和邊緣,解決終端和邊緣開發(fā)難,調(diào)試難,調(diào)優(yōu)難的問題,而終端和邊緣,可以積累大量的客戶和開發(fā)者,反哺于云端生態(tài),最終實現(xiàn)云,邊,端生態(tài)的繁榮。
總結(jié)
以上是生活随笔為你收集整理的寒武纪发布边缘AI芯片思元220,性能优于英伟达Xavier NX两倍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 首颗国产DRAM芯片的技术与专利,合肥长
- 下一篇: 重磅!中国火星探测任务首次公开亮相