双11个性化推荐背后,阿里云“舜天”如何应对百亿次挑战?
2018天貓雙11在技術(shù)世界,創(chuàng)下不少新記錄,其中有一個記錄是11日當(dāng)天阿里全平臺共為用戶做個性化推薦453億次,這些推薦的圖片長度加起來可以繞地球70圈。
當(dāng)你在天貓/手淘上買買買的時,圖片會以不同格式或分辨率來轉(zhuǎn)碼呈現(xiàn),這就要求后臺系統(tǒng)需要強(qiáng)大的算力來保障數(shù)倍于平時的轉(zhuǎn)碼需求。FPGA是可編程芯片中處理這類并行計算的最佳能耗比方案,這位曾經(jīng)高冷的“王謝堂前燕”,通過云計算的價值加成,正在賦能越來越多的科技創(chuàng)新。
在今年的XDF 2018大會上,阿里云的工程師首次向業(yè)界揭開了阿里云FPGA平臺“舜天”的神秘面紗,這臺云端計算加速的新引擎初露鋒芒。
FPGA最大的特點(diǎn)是直接基于硬件編程,擁有高吞吐和低延時等特性,可以很容易搭建出數(shù)據(jù)并行通道,同時完成流水線并行;相對于ASIC,又具有軟件的可編程性和靈活性,這讓它能完美適應(yīng)AI等對大算力有剛性需求并且尚處于快速迭代期的場景。
然而,傳統(tǒng)的FPGA線下開發(fā),過程非常繁瑣。對于IP提供商或方案集成商來說,需要自己開發(fā)和維護(hù)硬件,推廣難、成本高。對于客戶來說,開發(fā)時也繞不開硬件環(huán)節(jié),試錯成本大、周期長。
FPGA+云正好是解決這些難題的最佳方案。
阿里云工程師張振祥介紹,
“舜天”平臺整合了傳統(tǒng)FPGA產(chǎn)業(yè)鏈的多個環(huán)節(jié):從芯片原廠商,硬件,IP供應(yīng)商等等,將它們統(tǒng)一打包成平臺資源,使客戶可以專注于算力的實(shí)現(xiàn),而IP供應(yīng)商可以簡化交付流程,大幅優(yōu)化交付周期和運(yùn)營成本。
從2017年8月開始,“舜天”已經(jīng)歷經(jīng)三代產(chǎn)品迭代,最新上線的F3系列實(shí)例,可提供超過1000萬邏輯單元和高達(dá)47 TeraMACs的DSP計算能力。
以時序數(shù)據(jù)庫為例,舜天平臺的處理效率比CPU高出30倍以上:單路FPGA實(shí)現(xiàn)的實(shí)測峰值性能為2.97GB/s,相比之下,單核CPU壓縮的實(shí)測性能約為90M/s。在圖片識別場景下,舜天F3提供的算力約相當(dāng)于7臺CPU服務(wù)器,大幅降低了Capex成本,相比CPU服務(wù)器,TCO降低超40%。
而且,這個能力還可以擴(kuò)展,當(dāng)開發(fā)者在處理高性能計算和機(jī)器學(xué)習(xí)時,往往需要多芯片共同計算。“舜天”提供了各類高速接口,可完成1/2/4片芯片互聯(lián)拓?fù)?#xff0c;并支持動態(tài)配置。以卡內(nèi)雙芯片通信為例,帶寬高達(dá)600Gbps,同時支持多種輕量級傳輸協(xié)議,傳輸效率達(dá)95%。
/一睹真容:久經(jīng)沙場的悍將/
在阿里巴巴內(nèi)部,“舜天”其實(shí)已經(jīng)久經(jīng)沙場,支撐了包括雙11在內(nèi)的超大型計算場景、城市大腦、時序數(shù)據(jù)庫、高清視頻編解碼等等明星業(yè)務(wù)都涉及FPGA加速。
以雙11舉例,在客戶通過淘寶/天貓APP或者網(wǎng)頁端瀏覽商品時,圖片需要以不同格式或分辨率來呈現(xiàn)。舜天平臺的并行計算能力,直接將圖片處理的延時縮減到CPU服務(wù)器的50%,將吞吐能力提升了數(shù)倍。
在基因賽場里,“舜天“的表現(xiàn)也很出色,100Gbp全基因組分析時間被縮短至兩小時,速度比過去提升了10倍,單位成本也大大降低。全基因,指的就是把物種細(xì)胞里面完整的基因組序列從第1個DNA開始一直分析到最后一個DNA,這種技術(shù)幾乎能夠鑒定出基因組上任何類型的突變。
/化繁為簡:大幅降低開發(fā)門檻/
在傳統(tǒng)軟件工程師眼里,FPGA芯片的開發(fā)門檻是很高的,一方面需要了解HDL硬件編程,一方面需要對底層硬件和接口了如指掌。
在此次的XDF大會上,阿里云工程師潘岳介紹了舜天平臺的解決方案。
首先,“舜天”增加了對高級系統(tǒng)語言的支持,包括C, C++, OpenCL等。這意味著開發(fā)者可以在他們熟悉的編程語言和工作流程中順暢使用,而且確保原本基于CPU或GPU的開發(fā)可以輕松移植到云上的FPGA器件中。同時,阿里云還提供了大量的參考設(shè)計和開發(fā)包,幫助開發(fā)者快速建立系統(tǒng)。
接口方面,“舜天”提供了統(tǒng)一的標(biāo)準(zhǔn)總線接口,包括:DDR4/5、PCIe、DMA等等,開發(fā)者無需動手,只需要關(guān)心內(nèi)部邏輯實(shí)現(xiàn)(圖中灰色部分)。
此外,阿里云還支持多種主流FPGA的Shell+Role實(shí)現(xiàn),可以適配跨平臺的Multi-boot方案,讓用戶能夠輕松完成跨平臺遷移。
/IP加密隔離:安全不打折/
作為FPGA生態(tài)的最重要一環(huán),IP廠商非常在意云上的多租戶環(huán)境。既要需要確保IP產(chǎn)品不泄露,又要保證用戶購買的IP只能被自己使用。
為此,阿里云采用了IP加密、網(wǎng)絡(luò)隔離、IP所屬權(quán)和使用權(quán)分離等方式確保了用戶的源碼(或IP源碼)、發(fā)行包、部署環(huán)境全程對第三方完全不可見,同時還提供健康監(jiān)控能力,及時感知底層故障并實(shí)時報警。
作為最早入住舜天平臺的IP提供商之一,聯(lián)捷計算科技CTAccel CEO俞海樂博士表示,
上云后安全是我們最關(guān)注的問題,阿里云的安全隔離做得非常到位,這也是我們優(yōu)先選擇阿里云進(jìn)行部署的原因。
/不變的使命:共建普惠異構(gòu)生態(tài)/
此前阿里云的Slogan“為了無法計算的價值”一直深入人心,積極布道普惠計算。自推出異構(gòu)計算依賴,開發(fā)者在阿里云上能以更少的價格使用性能更強(qiáng)的GPU/FPGA實(shí)例,在深度學(xué)習(xí)領(lǐng)域?qū)㈤_發(fā)成本降低了一半以上。
為了讓更多開發(fā)者能夠享受到FPGA的收益,阿里云推出了FPGA彈性云服務(wù)器,并建立了FPGA鏡像市場,讓具有創(chuàng)新思路和成熟解決方案的IP產(chǎn)品通過平臺脫穎而出,擴(kuò)大市場規(guī)模,加快研發(fā)進(jìn)度,提高設(shè)計穩(wěn)定性。
張振祥說,
舜天是阿里云使能人工智能產(chǎn)業(yè)的一大利器,我們歡迎更多的開發(fā)者加入阿里云FPGA生態(tài),推動技術(shù)落地到產(chǎn)業(yè)中去。
?
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的双11个性化推荐背后,阿里云“舜天”如何应对百亿次挑战?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里云不做SaaS、要练好内功被集成,发
- 下一篇: 基于TableStore的亿级订单管理解