如何加速云原生数据应用?这个开源项目备受关注
2021 年 9 月 17 日,在由中國信息通信研究院、中國通信標準化協會聯合主辦的“2021 OSCAR 開源產業大會”上,由阿里云云原生團隊聯合發起(其他聯合單位包括:南京大學、Alluxio 社區)的開源項目 Fluid 榮獲“ OSCAR 尖峰開源項目和開源社區”獎項;同時,作為 Fluid 項目的聯合發起人和社區運營主席,來自南京大學 PASALab 的顧榮副研究員被評選為“開源人物”。
Fluid 于 2020 年 9 月正式對外開源。很多熟悉 Fluid 的朋友都知道,該項目的本質是一個云原生數據編排和加速系統,于 2021 年 5 月正式成為 CNCF Sandbox 項目,幫助業界完善在云原生 AI 領域的一塊重要版圖。
發展不過短短一年時間, Fluid 便一次獲得兩項開源界的重要認可,證明著其所專注的云原生、AI 領域也正在迎來廣泛關注。這其中的意義和價值如何?我們嘗試管中察豹,從 Fluid 的發展背景和實區實踐聊表觀點。
云原生 + AI,企業數字化創新的循環引擎
今年是十四五的開局之年。2021 年 3 月,新華社全文公布了《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》(以下簡稱“綱要”)。作為未來五年產業發展、科技創新等的重要行動綱領,綱要中有三個關鍵詞格外引人關注:“人工智能”、“云計算”,和首次被列進規劃的“開源”。
作為構筑數字經濟的基礎設施,云計算正像水電煤氣一樣,滲透至各行各業,用潤物細無聲來形容也毫不為過。近年來,以容器、微服務、DevOps 為代表的云原生技術,使云端強大的服務能力得到充分釋放,加速了基礎設施的敏捷化,進一步實現企業生產效能的提升,因為被喻為“企業數字化轉型的最短路徑”。
作為在信息基礎設施上承載的主要資源,“數據”則可以看成是新型基礎設施的“血液”。AI 技術與云計算的深度融合趨勢, 也進一步對算力和應用架構提出了新要求。
回溯 AI 領域主要技術框架的發展,如 Spark,Hive,MapReduce ,為了減少數據傳輸,其設計更多地考慮數據本地化架構。但隨著技術環境和應用需求的不斷更迭,為兼顧資源擴展的靈活性與使用成本,計算和存儲分離的架構在云原生環境中逐漸成為主流。這種計算存儲分離架構在提升系統彈性和靈活性的同時,也給 AI 等數據密集型應用帶來了計算性能和管理效率方面的挑戰。
為了解決現有云原生編排框架運行此類應用面臨數據訪問延時高、多數據源聯合分析難、應用使用數據過程復雜等痛點,阿里云云原生團隊、南京大學、Alluxio 社區聯合發起并開源的云原生數據編排和加速系統 Fluid ,該項目于 2021 年 5 月正式被 CNCF 接納為 Sandbox 項目,加速數據密集型應用全面擁抱云原生。
核心功能:
Fluid 在云原生應用與數據的協同編排、調度優化、數據緩存等幾方面提出一系列技術創新,其核心功能包括:
- 提供存儲無感知的數據對象-數據集(Dataset):通過自定義資源對象 (Custom Resource Definition)實現對不同存儲系統的統一抽象定義與管理,支持可觀測性和彈性伸縮。
- 利用分布式緩存技術加速數據集讀寫:通過擴展 CacheRuntime 對象,自定義并管理分布式數據緩存引擎。目前已原生支持緩存引擎 Alluxio 和 JindoFS。
- 基于容器調度的智能數據編排:基于 Kubernetes 容器調度和擴縮容能力,實現數據緩存的智能化編排。
- 數據集與應用協同調度:擴展 Kubernetes 調度器感知數據集緩存信息,就近調度應用,發揮本地讀寫緩存的性能優勢。
- 標準訪問接口:使用 Kubernetes 標準存儲接口 Persistent Volume Claim 訪問數據集,實現無縫兼容云原生應用。
- 面向場景的性能調優:針對深度學習、批量數據處理等任務,提供數據集預熱、元數據管理優化、小文件 IO 優化、自動彈性伸縮等手段,普遍提升任務運行效率。
開源成為生產環境下 AI 應用云原生化重要選擇
在本次開源產業大會上,信通院云計算與大數據研究所所長何寶宏、中國通信標準化協會常務副秘書長兼副理事長代曉慧等嘉賓發表重點觀點,表示開源是軟件業新的生產方式,也是一種新的交付方式,這種方式經過二十多年的發展,已經發展成熟。它既可以充分調動個人主觀能動性,通過社區協同機制進行思想碰撞,激發技術創新,引領新一代通用技術發展,更構建了新的合作模式,通過代碼公開、規則公開、過程公開,營造透明、開放的社區環境,并通過代碼檢測,自動形成安全前置,有效打消了企業及個人參加的顧慮,建立了信任機制,已成為企業構建信息系統的重要選擇。
這些觀點在 Fluid 開源社區中也得到了充分的印證。從正式被創立之日起,共建 Fluid 的各方就致力于通過結合學術界的原創研究和工業界的落地實踐能力,加速云原生基礎設施擁抱數據密集型應用,并且秉持開源精神與社區一同推動 Kubernetes 平臺應用使用和管理數據的統一界面的構建和使用。
正式開源來的短短在一年時間里,Fluid 借助社區的力量迅速發展,得到來自中國電信、微博、Boss 直聘、第四范式、云知聲等眾多企業的專家和工程師的關注,并貢獻了大量的開發工作,包括微博、中國電信、毫末智行等多家大型知名 IT 和互聯網企業都成功將Fluid 應用于生產環境下數據密集型應用的開發與部署,大大提升了資源利用效率和應用性能。
Fluid 的開源實踐,不僅得到了來自各界的認可,也為企業在云上以原生的方式創新數據密集型應用開發和部署,加速數據的流通、匯集、處理和價值挖掘,提升應用生產效率提供了可以信賴的經驗和方法。
作為對原生 Kubernetes 生態完全兼容的數據密集型應用運行支撐平臺,Fluid 將向更靈活、智能、可擴展的架構方向發展,不斷提升開發者和用戶使用體驗。未來,Fluid 將繼續與社區并肩、與生態同行,致力于推進云原生技術在 AI 等領域的生態建設與普及,與全球開發者一起拓展云原生的邊界。
戳鏈接(https://github.com/fluid-cloudnative/fluid),查看 Fluid 開源項目 github 主頁!
總結
以上是生活随笔為你收集整理的如何加速云原生数据应用?这个开源项目备受关注的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 课程升级 | 极速构建知识体系,即学即用
- 下一篇: 云拨测助力节卡机器人 全面优化海外网站性