日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

比「数据中台」热门,国外爆火的「数据编织」到底是什么?

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 比「数据中台」热门,国外爆火的「数据编织」到底是什么? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源:談數據,作者:石秀峰

全文共4701個字,建議閱讀需10分鐘

聽過數據治理,你聽過Data Fabric(數據編織)嗎?在國內談論的比較少,但據說在國外已經很火了,就如同2019年國內的“數據中臺”一樣火!

“Data Fabric”究竟是什么?這又是一場概念的炒作,還是真正的技術革新?這些問題一直困擾著我。于是,帶著這些問題,通過翻閱大量材料,終于發現了“Data Fabric”的“真相”!

什么是數據編織?
當下,數據是企業數字化轉型重要驅動因素,而企業的數據環境日趨復雜:內部數據/外部數據,實時數據/批處理數據,結構化數據/半結構化數據/非結構化數據,本地數據/云端數據,單機數據/分布式數據……,在更高程度數字化要求下,企業必須使用一種新型的數據結構來應對企業數據資產日益加劇的多樣化、分布式、規模、復雜性等問題。

在這樣的背景下,一種新興的數據管理和處理方法——數據編織(Data Fabric)誕生了。

Gartner認為數據編織是一種跨平臺的數據整合方式,它不僅可以集合所有業務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數據。

圖片來源:gartner

作為一種新興的數據管理和處理方法,數據編織改進了數據倉庫和數據湖的概念,引入了一個新的架構(網絡狀),使整個企業能夠統一利用數據。數據編織使用基于網絡的架構而不是點對點的連接來處理數據,實現了從數據源層面到分析、洞察力生成、協調和應用的一體化數據結構。

據Gartner預測:數據編制利用分析功能來持續監控數據管道,通過對數據資產的持續分析,支持各種數據的設計、部署和使用,縮短集成時間30%,縮短部署時間30%,縮短維護時間70%。

數據編織的結構和特點
Gartner 將數據編織定義為一種設計概念,它充當數據和連接過程的集成層(結構)。數據編織利用對現有、可發現的元數據資產的持續分析,以支持跨所有環境(包括混合云和多云平臺)設計、部署和利用集成和可重用數據。數據編織利用人和機器的能力來訪問數據或在適當的情況下支持其整合。它不斷地識別和連接來自不同應用程序的數據,以發現可用數據之間獨特的、與業務相關的關系,并通過分析獲得數據洞察力;通過快速訪問和基于圖譜的元數據理解提供比傳統數據管理更多的價值。

下圖是Gartner給出的數據編織的典型結構,至下而上分為5個層次:

圖片來源:gartner

數據源層:數據編織可以連接各種數據源。這些資源可能存在于企業內部,例如企業的ERP系統、CRM系統或人力資源系統 。還可以連接到非結構化數據源,例如,支持 PDF 和屏幕截圖等文件提交系統,支持物聯網傳感器的接入。數據編織還可以從公共可用數據(如社交媒體)等外部系統中提取數據。

數據目錄層:與傳統人工編目不同,數據編織強調采用新技術,例如:語義知識圖、主動元數據管理和嵌入式機器學習 (ML),自動識別元數據,持續分析關鍵指標和統計數據的可用元數據,然后構建圖譜模型,形成基于元數據的獨特和業務相關關系,以易于理解的圖譜方式描述元數據。

知識圖譜層:數據編織必須構建和管理知識圖譜。知識圖譜的語義層使用 AI/ML 算法簡化數據集成設計,使其更加直觀和易于解釋,使數字化領導者的分析變得容易。 基于知識圖譜的數據應用,將合適的數據在合適的時機自動化推送給數據集成專家和數據工程師,讓他們能夠輕松訪問數據并進行數據共享和使用。

數據集成層:數據編織提供自動編織、動態集成的能力,兼容各種數據集成方式,包括但不限于 ETL、流式傳輸、復制、消息傳遞和數據虛擬化或數據微服務等。同時,支持通過 API 支持與內部和外部利益相關者共享數據。

數據消費層:數據編織面向所有類型的數據用戶,提供數據和服務,包括:數據科學家、數據分析師、數據集成專家、數據工程師等,既能夠面向專業的IT 用戶的復雜集成需求處理,也可以支持業務人員的自助式數據準備和分析。

數據編織與數據中臺
數據編織,乍一看是不是很眼熟,是不是有種“似曾相識”的趕腳,是不是與我們的“數據中臺”的概念有點像?

在主流的數據中臺概念中,也強調支持各種數據源(結構化的、半結構化的、非結構化的),提供數據目錄、數據標簽、數據分析等服務,提供數據資產的動態化管理,支持為不同數據用戶提供數據服務,解決企業的數據孤島,讓數據用起來。這些特點都與數據編織很相似,只不過數據編織更強調人工智能和知識圖譜的應用。因此,也有專家提出“數據編織是數據中臺的一下站!”。

圖片來源:艾瑞咨詢

筆者認為數據中臺與數據編織還并不是一個概念,更不像是數據中臺的高級版本,以下是筆者理解的數據中臺與數據編織之間的關系和差異,如有偏頗,還請斧正。

第一,數據中臺并不是全新的技術和產品,更多是由一些技術組件組合而形成的一個綜合性的數據應用解決方案,例如:基于數據湖的數據存儲服務、基于各種數據管理組件的數據治理服務,基于大數據平臺的數據計算和處理服務,以及提供面向應用的數據標簽、數據目錄、數據分析、模型算法服務等。而數據編織是側重于統一多樣化和分布式數據資產的功能,為應對復雜的混合數據環境所面臨的挑戰而設計,是一種架構設計方式,強調自動化的數據集成、整合和治理。

第二,數據中臺是一個“讓數據用起來”的方法論,不僅包含數據管理和使用的相關技術組件,還包括與之相適應的企業組織機構、管理制度和流程、運營機制和考核辦法等。而數據編織一開始就強調新技術的應用,例如:機器學習、人工智能、知識圖譜的等,且構建和管理知識圖譜是其核心支持從數據源級別到分析、洞察力生成、編排和應用程序的集成數據層(結構),數據編織的技術色彩更濃一些。

第三,數據中臺需要有專業的管理和運營團隊才能發揮作用,這個團隊往往是由IT部門承擔。而數據編織則強調更少的IT干預,數據編織的重要特征依賴于一組預建和預配置的組件,從原始數據到經過處理和可操作的信息,這些信息或系統通常托管在云端,由經驗豐富的服務提供商管理。這意味著,數據編織的實施和維護數據中,不需要太多的IT部門參與。

基于以上幾點,可見數據中臺與數據編織是兩個概念,如果硬要和數據中臺比較的話,我倒是認為數據編織可以作為數據中臺的一部分,畢竟數據中臺爭議頗多,至今也沒有一個標準的定義,多增加一些內容倒也無妨,哈哈~

數據編織與數據治理
大家都知道,數據治理是對數據管理的管理,它是基于內部數據標準、策略和規則,管理企業數據的可用性、完整性和安全性,從而將數據轉化為企業資產。數據治理涵蓋了數據管理的各種主題,例如:數據戰略、數據架構、數據建模、數據存儲和操作、數據安全、數據質量、元數據、數據集成和互操作性、文檔和內容、參考數據和主數據、數據倉庫和商業智能等。

圖片來源:

在傳統的數據治理體系中是沒有包含數據編織的,但Data Fabric是一種數據管理的全新架構,筆者認為數據編織將是自動化、智能化數據治理的一個理想解決方案,從數據架構層面增強了企業數據管理的能力。

首先,統一語義和持續洞察力

數據編織提供了基于知識圖譜的統一語義描述層,使業務用戶能夠輕松發現和訪問相關的數據;數據編織使用先進的人工智能、機器學習算法連接不同數據源的數據以及數據之間的業務關系,建立知識圖譜,提供持續分析能力,以衡量和識別與數據相關的各種業務價值和風險。

其次,統一治理和審計合規

數據編織支持各種數據源的連接,本地化管理企業內部、外部、云端的數據資產的元數據;通過AI/ML技術,自動化應用策略、使得審計合規性和識別系統中的潛在數據漏洞變得更加容易;自動化和人工智能的應用增強了數據跟蹤和路線查詢能力;通過整合所有數據環境,落地整體數據治理和安全流程集中且一致的治理體系。

再次,自動化和動態集成能力

數據編制的設計和部署天然具備跨分布式的多種基礎設施環境的數據進行集成能力,提供為孤立的數據源自動創建數據集成管道,支持ETL、流式傳輸、復制、消息集成、web服務、API接口等多種集成管道。通過預定義的數據集成策略自助、動態獲取最新的數據資產,讓企業的數據資產可見、可查、可管、可用!

最后,自動編排和統一生命周期

數據編織是一個先進的數據管理架構,采用人工智能、機器學習、數據湖以及其他平臺和技術對不同數據源進行自助編排,確保企業全面了解所有數據環境中的數據管道。數據編織支持數據的統一生命周期管理,用于配置和管理數據的各個方面,包括數據驅動應用的開發、運營、測試和生產發布。

國外是如何使用數據編織的?
不得不承認,在科技創新方面,我們與美國還是有很大差距的。就拿數據編織這個全新的數據架構來講,在國內還未見到應用案例,但在國外已經形成了最佳實踐。以下內容是根據國內的一些公開材料,整理出來的5個數據編織應用實踐。

1、采用 DataOps 流程模型

我們先來回顧一下什么是DataOps。DataOps是一種工程方法論和一套實踐方法,旨在快速、可靠、可重復、持續地交付生產就緒數據以及運營就緒分析和數據科學模型。DataOps 通過支持數據版本控制、數據轉換、數據血緣和分析模型的工程學科來增強和推進數據治理。

雖然Data Fabric和DataOps不是相同的概念,但DataOps是將Data Fabric真正落地一個重要的推動者。DataOps 流程模型,數據流程、工具和數據洞察與用戶之間存在密切的聯系。用戶可以持續依賴數據,有意義地利用可用工具,并通過數據洞察力來優化業務運營。該模型與數據編織的架構具有共生關系。如果沒有 DataOps 流程模型和思維模式,用戶將難以充分利用數據編織。

2、避免建立另一個數據湖

構建數據編織時的一個常見問題是它可能最終變成另一個數據湖。如果企業擁有所有架構組件——數據源、分析、BI 算法、數據傳輸和數據消費——但沒有 API 和 SDK,那么結果就不是真正的數據編織。

數據編織是一種架構設計方式,而不是單一技術。組件之間的互操作性和集成準備是該設計的定義特征。這就是為什么企業需要特別關注集成層、無縫數據傳輸以及自動洞察的獲得,通過API和SDK實現。

3、運營真正的混合云

云供應商傾向于將客戶綁定在他們的服務中,這使得數據遷移、集成、整合對企業來說是一項成本高昂且具有挑戰性的工作。

數據編織必須面向企業復雜的數據環境提供集成整合能力,克服在維護多樣化的數據存儲和基礎設施部署組合方面的技術挑戰。企業可以根據不斷變化的技術和業務需求,自由地從一系列混合 IT 基礎架構資源中運行關鍵任務數據驅動的 IT 服務、應用程序、存儲和訪問。

4、與邊緣計算深度融合

邊緣計算專為支持物聯網實施而構建,它是將與數據相關的關鍵任務從集中式應用程序轉移到一個單獨的邊緣層,該邊緣層是分布式的,但與數據編織緊密相連。通過使數據編織適配邊緣計算,企業可以從其物聯網設備中獲得更多數據價值。

例如,智能工廠可以使用數據編織與邊緣數據深度融合,可自動計算貨物集裝箱的重量,并自動啟動揀貨流程。通過邊緣數據編織加速業務決策并實現自動化操作,這是傳統集中式數據倉庫無法做到的。

5、基于圖分析的業務洞察

圖數據庫是關系數據庫的一種更智能的替代方案,它有助于使用知識圖譜來可視化元數據和數據關系。圖數據庫使用語義上下文豐富數據,以了解信息的含義,而不僅僅是文本字符串。

由圖分析提供支持的知識圖譜是數據編織的理想解決方案——數據編織架構的主要目的是實現對不同數據源的整體使用而不是重復使用。知識圖譜可以通過分析數據源之間的關系來提供業務和運營洞察力。與關系數據庫方法相比,它更擅長集成不同的數據,并且挖掘出業務人員更關心的“洞見”。

福利
私信回復“報表”,可免費體驗企業級報表工具——FineReport

私信回復“BI”,可免費體驗自助大數據分析工具——FineBI

總結

以上是生活随笔為你收集整理的比「数据中台」热门,国外爆火的「数据编织」到底是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。