如何加速云原生数据应用?这个开源项目备受关注
2021 年 9 月 17 日,在由中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會(huì)聯(lián)合主辦的“2021 OSCAR 開源產(chǎn)業(yè)大會(huì)”上,由阿里云云原生團(tuán)隊(duì)聯(lián)合發(fā)起(其他聯(lián)合單位包括:南京大學(xué)、Alluxio 社區(qū))的開源項(xiàng)目 Fluid 榮獲“ OSCAR 尖峰開源項(xiàng)目和開源社區(qū)”獎(jiǎng)項(xiàng);同時(shí),作為 Fluid 項(xiàng)目的聯(lián)合發(fā)起人和社區(qū)運(yùn)營主席,來自南京大學(xué) PASALab 的顧榮副研究員被評(píng)選為“開源人物”。
Fluid 于 2020 年 9 月正式對(duì)外開源。很多熟悉 Fluid 的朋友都知道,該項(xiàng)目的本質(zhì)是一個(gè)云原生數(shù)據(jù)編排和加速系統(tǒng),于 2021 年 5 月正式成為 CNCF Sandbox 項(xiàng)目,幫助業(yè)界完善在云原生 AI 領(lǐng)域的一塊重要版圖。
發(fā)展不過短短一年時(shí)間, Fluid 便一次獲得兩項(xiàng)開源界的重要認(rèn)可,證明著其所專注的云原生、AI 領(lǐng)域也正在迎來廣泛關(guān)注。這其中的意義和價(jià)值如何?我們嘗試管中察豹,從 Fluid 的發(fā)展背景和實(shí)區(qū)實(shí)踐聊表觀點(diǎn)。
云原生 + AI,企業(yè)數(shù)字化創(chuàng)新的循環(huán)引擎
今年是十四五的開局之年。2021 年 3 月,新華社全文公布了《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》(以下簡(jiǎn)稱“綱要”)。作為未來五年產(chǎn)業(yè)發(fā)展、科技創(chuàng)新等的重要行動(dòng)綱領(lǐng),綱要中有三個(gè)關(guān)鍵詞格外引人關(guān)注:“人工智能”、“云計(jì)算”,和首次被列進(jìn)規(guī)劃的“開源”。
作為構(gòu)筑數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施,云計(jì)算正像水電煤氣一樣,滲透至各行各業(yè),用潤物細(xì)無聲來形容也毫不為過。近年來,以容器、微服務(wù)、DevOps 為代表的云原生技術(shù),使云端強(qiáng)大的服務(wù)能力得到充分釋放,加速了基礎(chǔ)設(shè)施的敏捷化,進(jìn)一步實(shí)現(xiàn)企業(yè)生產(chǎn)效能的提升,因?yàn)楸挥鳛椤捌髽I(yè)數(shù)字化轉(zhuǎn)型的最短路徑”。
作為在信息基礎(chǔ)設(shè)施上承載的主要資源,“數(shù)據(jù)”則可以看成是新型基礎(chǔ)設(shè)施的“血液”。AI 技術(shù)與云計(jì)算的深度融合趨勢(shì), 也進(jìn)一步對(duì)算力和應(yīng)用架構(gòu)提出了新要求。
回溯 AI 領(lǐng)域主要技術(shù)框架的發(fā)展,如 Spark,Hive,MapReduce ,為了減少數(shù)據(jù)傳輸,其設(shè)計(jì)更多地考慮數(shù)據(jù)本地化架構(gòu)。但隨著技術(shù)環(huán)境和應(yīng)用需求的不斷更迭,為兼顧資源擴(kuò)展的靈活性與使用成本,計(jì)算和存儲(chǔ)分離的架構(gòu)在云原生環(huán)境中逐漸成為主流。這種計(jì)算存儲(chǔ)分離架構(gòu)在提升系統(tǒng)彈性和靈活性的同時(shí),也給 AI 等數(shù)據(jù)密集型應(yīng)用帶來了計(jì)算性能和管理效率方面的挑戰(zhàn)。
為了解決現(xiàn)有云原生編排框架運(yùn)行此類應(yīng)用面臨數(shù)據(jù)訪問延時(shí)高、多數(shù)據(jù)源聯(lián)合分析難、應(yīng)用使用數(shù)據(jù)過程復(fù)雜等痛點(diǎn),阿里云云原生團(tuán)隊(duì)、南京大學(xué)、Alluxio 社區(qū)聯(lián)合發(fā)起并開源的云原生數(shù)據(jù)編排和加速系統(tǒng) Fluid ,該項(xiàng)目于 2021 年 5 月正式被 CNCF 接納為 Sandbox 項(xiàng)目,加速數(shù)據(jù)密集型應(yīng)用全面擁抱云原生。
核心功能:
Fluid 在云原生應(yīng)用與數(shù)據(jù)的協(xié)同編排、調(diào)度優(yōu)化、數(shù)據(jù)緩存等幾方面提出一系列技術(shù)創(chuàng)新,其核心功能包括:
- 提供存儲(chǔ)無感知的數(shù)據(jù)對(duì)象-數(shù)據(jù)集(Dataset):通過自定義資源對(duì)象 (Custom Resource Definition)實(shí)現(xiàn)對(duì)不同存儲(chǔ)系統(tǒng)的統(tǒng)一抽象定義與管理,支持可觀測(cè)性和彈性伸縮。
- 利用分布式緩存技術(shù)加速數(shù)據(jù)集讀寫:通過擴(kuò)展 CacheRuntime 對(duì)象,自定義并管理分布式數(shù)據(jù)緩存引擎。目前已原生支持緩存引擎 Alluxio 和 JindoFS。
- 基于容器調(diào)度的智能數(shù)據(jù)編排:基于 Kubernetes 容器調(diào)度和擴(kuò)縮容能力,實(shí)現(xiàn)數(shù)據(jù)緩存的智能化編排。
- 數(shù)據(jù)集與應(yīng)用協(xié)同調(diào)度:擴(kuò)展 Kubernetes 調(diào)度器感知數(shù)據(jù)集緩存信息,就近調(diào)度應(yīng)用,發(fā)揮本地讀寫緩存的性能優(yōu)勢(shì)。
- 標(biāo)準(zhǔn)訪問接口:使用 Kubernetes 標(biāo)準(zhǔn)存儲(chǔ)接口 Persistent Volume Claim 訪問數(shù)據(jù)集,實(shí)現(xiàn)無縫兼容云原生應(yīng)用。
- 面向場(chǎng)景的性能調(diào)優(yōu):針對(duì)深度學(xué)習(xí)、批量數(shù)據(jù)處理等任務(wù),提供數(shù)據(jù)集預(yù)熱、元數(shù)據(jù)管理優(yōu)化、小文件 IO 優(yōu)化、自動(dòng)彈性伸縮等手段,普遍提升任務(wù)運(yùn)行效率。
開源成為生產(chǎn)環(huán)境下 AI 應(yīng)用云原生化重要選擇
在本次開源產(chǎn)業(yè)大會(huì)上,信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏、中國通信標(biāo)準(zhǔn)化協(xié)會(huì)常務(wù)副秘書長(zhǎng)兼副理事長(zhǎng)代曉慧等嘉賓發(fā)表重點(diǎn)觀點(diǎn),表示開源是軟件業(yè)新的生產(chǎn)方式,也是一種新的交付方式,這種方式經(jīng)過二十多年的發(fā)展,已經(jīng)發(fā)展成熟。它既可以充分調(diào)動(dòng)個(gè)人主觀能動(dòng)性,通過社區(qū)協(xié)同機(jī)制進(jìn)行思想碰撞,激發(fā)技術(shù)創(chuàng)新,引領(lǐng)新一代通用技術(shù)發(fā)展,更構(gòu)建了新的合作模式,通過代碼公開、規(guī)則公開、過程公開,營造透明、開放的社區(qū)環(huán)境,并通過代碼檢測(cè),自動(dòng)形成安全前置,有效打消了企業(yè)及個(gè)人參加的顧慮,建立了信任機(jī)制,已成為企業(yè)構(gòu)建信息系統(tǒng)的重要選擇。
這些觀點(diǎn)在 Fluid 開源社區(qū)中也得到了充分的印證。從正式被創(chuàng)立之日起,共建 Fluid 的各方就致力于通過結(jié)合學(xué)術(shù)界的原創(chuàng)研究和工業(yè)界的落地實(shí)踐能力,加速云原生基礎(chǔ)設(shè)施擁抱數(shù)據(jù)密集型應(yīng)用,并且秉持開源精神與社區(qū)一同推動(dòng) Kubernetes 平臺(tái)應(yīng)用使用和管理數(shù)據(jù)的統(tǒng)一界面的構(gòu)建和使用。
正式開源來的短短在一年時(shí)間里,Fluid 借助社區(qū)的力量迅速發(fā)展,得到來自中國電信、微博、Boss 直聘、第四范式、云知聲等眾多企業(yè)的專家和工程師的關(guān)注,并貢獻(xiàn)了大量的開發(fā)工作,包括微博、中國電信、毫末智行等多家大型知名 IT 和互聯(lián)網(wǎng)企業(yè)都成功將Fluid 應(yīng)用于生產(chǎn)環(huán)境下數(shù)據(jù)密集型應(yīng)用的開發(fā)與部署,大大提升了資源利用效率和應(yīng)用性能。
Fluid 的開源實(shí)踐,不僅得到了來自各界的認(rèn)可,也為企業(yè)在云上以原生的方式創(chuàng)新數(shù)據(jù)密集型應(yīng)用開發(fā)和部署,加速數(shù)據(jù)的流通、匯集、處理和價(jià)值挖掘,提升應(yīng)用生產(chǎn)效率提供了可以信賴的經(jīng)驗(yàn)和方法。
作為對(duì)原生 Kubernetes 生態(tài)完全兼容的數(shù)據(jù)密集型應(yīng)用運(yùn)行支撐平臺(tái),Fluid 將向更靈活、智能、可擴(kuò)展的架構(gòu)方向發(fā)展,不斷提升開發(fā)者和用戶使用體驗(yàn)。未來,Fluid 將繼續(xù)與社區(qū)并肩、與生態(tài)同行,致力于推進(jìn)云原生技術(shù)在 AI 等領(lǐng)域的生態(tài)建設(shè)與普及,與全球開發(fā)者一起拓展云原生的邊界。
戳鏈接(https://github.com/fluid-cloudnative/fluid),查看 Fluid 開源項(xiàng)目 github 主頁!
總結(jié)
以上是生活随笔為你收集整理的如何加速云原生数据应用?这个开源项目备受关注的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 课程升级 | 极速构建知识体系,即学即用
- 下一篇: 云拨测助力节卡机器人 全面优化海外网站性