當前位置：首頁 >

Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图

發布時間：2025/3/20 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者 | 顧榮、車漾、范斌

得益于容器化帶來的高效部署、敏捷迭代，以及云計算在資源成本和彈性擴展方面的天然優勢，以 Kubernetes 為代表的云原生編排框架吸引著越來越多的 AI 與大數據應用在其上部署和運行。然而，云原生計算基金會（CNCF）全景圖中一直缺失一款原生組件，以幫助這些數據密集型應用在云原生場景下高效、安全、便捷地訪問數據。

如何驅動大數據、AI 應用在云原生場景下高效運行是一個既有理論意義又具應用價值的重要挑戰性問題：

一方面，解決該問題需考慮復雜場景下應用協同編排、調度優化、數據緩存等一系列理論與技術難題；
另一方面，該問題的解決能夠有力地推動廣闊云服務場景下的大數據、AI 落地應用。

為系統化解決相關問題，學術界和工業界密切合作，南京大學 PASALab 副研究員顧榮博士、阿里云容器服務高級技術專家車漾、Alluxio 項目創始成員范斌博士聯合推動發起了 Fluid開源合作項目。

Fluid 是什么？

Fluid 是一款開源的云原生基礎架構項目。在計算和存儲分離的大背景驅動下，Fluid 的目標是為 AI 與大數據云原生應用提供一層高效便捷的數據抽象，將數據從存儲抽象出來，以便達到：

通過數據親和性調度和分布式緩存引擎加速，實現數據和計算之間的融合，從而加速計算對數據的訪問；
將數據獨立于存儲進行管理，并且通過Kubernetes的命名空間進行資源隔離，實現數據的安全隔離；
將來自不同存儲的數據聯合起來進行運算，從而有機會打破不同存儲的差異性帶來的數據孤島效應。

通過 Kubernetes 服務提供的數據層抽象，可以讓數據像流體一樣在諸如 HDFS、OSS、Ceph 等存儲源和 Kubernetes 上層云原生應用計算之間靈活高效地移動、復制、驅逐、轉換和管理。而具體數據操作對用戶透明，用戶不必再擔心訪問遠端數據的效率、管理數據源的便捷性，以及如何幫助 Kuberntes 做出運維調度決策等問題。用戶只需以最自然的 Kubernetes 原生數據卷方式直接訪問抽象出來的數據，剩余任務和底層細節全部交給 Fluid 處理。

Fluid 項目當前主要關注數據集編排和應用編排這兩個重要場景。數據集編排可以將指定數據集的數據緩存到指定特性的 Kubernetes 節點；而應用編排將指定該應用調度到可以或已經存儲了指定數據集的節點上。這兩者還可以組合形成協同編排場景，即協同考慮數據集和應用需求進行節點資源調度。

為什么云原生需要 Fluid?

云原生環境與更早出現的大數據處理框架在設計理念和機制上存在天然分歧。深受 Google 三篇論文 GFS、MapReduce、BigTable 影響的 Hadoop 大數據生態，從誕生之初即信奉和實踐“移動計算而不是數據”的理念。因此以 Spark，Hive，MapReduce 為代表的數據密集型計算框架及其應用為減少數據傳輸，其設計更多地考慮數據本地化架構。但隨著時代的變遷，為兼顧資源擴展的靈活性與使用成本，計算和存儲分離的架構在更新興的云原生環境中大行其道。因此云原生環境里需要類似 Fluid 這樣的一款組件來補充大數據框架擁抱云原生帶來的數據本地性缺失。

此外，在云原生環境中，應用通常以無狀態（Stateless）微服務化方式部署，并不以數據處理為中心；而數據密集型框架和應用通常以數據抽象為中心，開展相關計算作業和任務的分配執行。當數據密集型框架融入云原生環境后，也需要像 Fluid 這樣以數據抽象為中心的調度和分配框架來協同工作。

針對 Kubernetes 缺乏對應用數據的智能感知和調度優化的問題，及以 Alluxio 為例的數據編排引擎存在難以直接管控云原生基礎架構層的局限，Fluid 提出數據應用協同編排、智能感知、聯合優化等一系列創新方法，并且形成一套云原生場景下數據密集型應用的高效支撐平臺。

具體的架構參見下圖：

演示

我們提供了視頻的 Demo，為您展示如何通過 Fluid 提升云上 AI 模型訓練的速度。在這個 Demo 中，使用同樣的 ResNet50 測試代碼，Fluid 加速和原生的 ossfs 直接訪問相比，不論在每秒鐘的訓練速度，和訓練總時長相比都有明顯的優勢，訓練耗時縮短了 69%。

點擊鏈接，即可查看視頻 Demo：https://v.qq.com/x/page/t31488r2p2q.html

快速體驗 Fluid

Fluid 需要運行在 Kubernetes v1.14 及以上版本，并且需要支持 CSI 存儲。Fluid Operator 的部署和管理是通過 Kubernetes 平臺上的包管理工具 Helm v3 實現的。運行 Fluid 前請確保 Helm 已經正確安裝在 Kubernetes 集群里。你可以參照文檔，安裝和使用 Fluid。

歡迎加入與反饋

Fluid 讓 Kubernetes 真正具有分布式數據緩存的基礎能力，開源只是一個起點，需要大家的共同參與。大家在使用過程發現 bug 或需要的 feature，都可以直接在 GitHub 上面提 issue 或 PR，一起參與討論。

另外我們有一個釘釘群，手機端釘釘點擊超鏈即可加入，歡迎您的參與和討論！

作者簡介

顧榮 ?南京大學計算機系副研究員，研究方向大數據處理系統，已在 TPDS、ICDE、Parallel Computing、JPDC、IPDPS、ICPP 等領域前沿期刊會議發表論文20余篇，成果落地應用于中國石化、百度、字節跳動等公司和開源項目Apache Spark，獲 2018 年度江蘇省科學技術一等獎、2019 年度江蘇省計算機學會青年科技獎，當選中國計算機學會系統軟件專委會委員/大數據專委會通訊委員、江蘇省計算機學會大數據專委會秘書長；

車漾 ?阿里云高級技術專家，從事 Kubernetes 和容器相關產品的開發。尤其關注利用云原生技術構建機器學習平臺系統，是 GPU 共享調度的主要作者和維護者；

范斌 Alluxio 開源項目的管理委員會成員（PMC Member）和源碼維護者(Maintianer)。加入 Alluxio 項目之前, 范斌就職于谷歌, 從事下一代大規模分布式存儲系統的研究與開發。他于 2013 年獲得卡內基梅隆大學(Carnegie Mellon University)計算機系博士學位，博士期間從事分布式系統的設計與實現，是 Cuckoo Filter 的作者。

“阿里巴巴云原生：關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦云原生流行技術趨勢、云原生大規模的落地實踐，做最懂云原生開發者的公眾號。”

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SpringCloud 应用在 Kube
下一篇： AI 事件驱动场景 Serverless