日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

如何快速搭建云原生企业级数据湖架构及实践分享

發(fā)布時(shí)間:2024/8/23 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何快速搭建云原生企业级数据湖架构及实践分享 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介:?眾所周知,數(shù)據(jù)湖技術(shù)在大數(shù)據(jù)領(lǐng)域炙手可熱,隨著在云上的廣泛部署和應(yīng)用,其業(yè)務(wù)價(jià)值逐漸獲得業(yè)界共識(shí)。如何快搭建數(shù)據(jù)湖架構(gòu)被越來(lái)越多的企業(yè)探討。本文主要分享快速搭建云原生企業(yè)級(jí)數(shù)據(jù)湖架構(gòu)及實(shí)踐分享。

王震,阿里云計(jì)算平臺(tái)事業(yè)部 開源大數(shù)據(jù)平臺(tái) 技術(shù)專家

本文根據(jù)王震在 2021開源大數(shù)據(jù)技術(shù)線上Meetup#0821 分享整理

直播回放鏈接:https://developer.aliyun.com/live/247227

內(nèi)容框架:

  • 背景介紹
  • 如何使用 DLF數(shù)據(jù)湖
  • 實(shí)操演示

一、背景介紹

什么是數(shù)據(jù)湖 ?

數(shù)據(jù)湖:以一定規(guī)則形式存儲(chǔ)各種類型的數(shù)據(jù)

  • 結(jié)構(gòu)化數(shù)據(jù)( Orc 、Parquet )
  • 半結(jié)構(gòu)化數(shù)據(jù) ( Json 、Xml )
  • 非結(jié)構(gòu)化數(shù)據(jù)(圖像 、視頻)

為什么需要數(shù)據(jù)湖 ? ?

1、數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大

  • 大數(shù)據(jù)存儲(chǔ)需要治理
  • 數(shù)據(jù)治理需要厘清數(shù)據(jù)依賴關(guān)系(血緣)
  • 用戶需要明確大數(shù)據(jù)整體成本(TCO)

2、數(shù)據(jù)來(lái)源多樣化

  • 事務(wù)數(shù)據(jù)(MySQL, SqlServer)
  • 搜索數(shù)據(jù) (SOLR)
  • 批處理數(shù)據(jù) (SPARK, HIVE)

3、數(shù)據(jù)格式多樣化

  • Parquet / Orc / Avro / Csv / Json / Text

4、數(shù)據(jù)分析場(chǎng)景多樣化

  • 基于語(yǔ)義的搜索分析
  • 隨機(jī)/近實(shí)時(shí) OLAP 分析

5、數(shù)據(jù)分析用戶多元化

  • 分析用戶角色多元化 (開發(fā)/測(cè)試/數(shù)據(jù)/BI)
  • 用戶數(shù)據(jù)訪問合規(guī)管控訴求

數(shù)據(jù)湖能做什么

1、針對(duì)數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大

  • 數(shù)據(jù)湖提供 【數(shù)據(jù)血緣】服務(wù)
  • 數(shù)據(jù)湖提供 【數(shù)據(jù)治理】服務(wù)
  • 數(shù)據(jù)湖幫助用戶明確大數(shù)據(jù)的整體成本

2、針對(duì)數(shù)據(jù)來(lái)源多樣化

  • DLF 提供【統(tǒng)一元數(shù)據(jù)】服務(wù)

? 解決多引擎元數(shù)據(jù)一致性問題

? 解決元數(shù)據(jù)使用和維護(hù)成本問題

3、針對(duì)數(shù)據(jù)格式多樣化

  • DLF 提供【數(shù)據(jù)入湖/元數(shù)據(jù)爬取】服務(wù)

? 支持 MYSQL/KAFKA 入湖,元數(shù)據(jù)爬取

? 支持離線/實(shí)時(shí)入湖, 滿足不同業(yè)務(wù)時(shí)效要求

? 支持 DELTA/HUDI 等數(shù)據(jù)湖格式

4、針對(duì)數(shù)據(jù)分析場(chǎng)景多樣化

  • DLF 提供【統(tǒng)一元數(shù)據(jù)服務(wù)】

? 可以切換不同引擎 MC/EMR/DDI

? 數(shù)據(jù)探索在不同引擎之間一致

5、針對(duì)數(shù)據(jù)分析用戶多元化

  • 數(shù)據(jù)湖提供【訪問權(quán)限控制】服務(wù)

? 多引擎下的數(shù)據(jù)訪問集中授權(quán)/避免反復(fù)授權(quán)

? 解決多用戶數(shù)據(jù)訪問合規(guī)問題

  • 數(shù)據(jù)湖提供【訪問日志審計(jì)】服務(wù)

? 解決用用戶數(shù)據(jù)訪問合規(guī)審查問題

二、如何使用 DLF 數(shù)據(jù)湖

數(shù)據(jù)入湖

1、大量異構(gòu)外部數(shù)據(jù)源【數(shù)據(jù)入湖】服務(wù)

  • 全量導(dǎo)入 : 批量入湖一次導(dǎo)入
  • 增量導(dǎo)入 : 實(shí)時(shí)入湖流失增量導(dǎo)入

2、大量現(xiàn)存Hadoop生態(tài)數(shù)據(jù) 【元數(shù)據(jù)爬取】服務(wù)

  • 將數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖OSS進(jìn)行存儲(chǔ)
  • 元數(shù)據(jù)爬取 提取原有數(shù)據(jù)schema

數(shù)據(jù)查詢

數(shù)據(jù)湖【統(tǒng)一元數(shù)據(jù)】服務(wù)支持多種引擎查詢

  • 使用數(shù)據(jù)探索(SPARK)對(duì)入湖數(shù)據(jù)進(jìn)行探查
  • 使用MAXCOMPUTE對(duì)數(shù)據(jù)進(jìn)行深度復(fù)雜加工
  • 使用Databricks DDI專用集群對(duì)數(shù)據(jù)進(jìn)行探索
  • 更多引擎支持中…

數(shù)據(jù)治理

一、使用【權(quán)限訪問控制】服務(wù)控制數(shù)據(jù)訪問

  • 進(jìn)行 庫(kù)/表/列 級(jí)別的訪問權(quán)限設(shè)置
  • 統(tǒng)一的元數(shù)據(jù),只需要設(shè)置一次

二、使用【數(shù)據(jù)治理】服務(wù)明確大數(shù)據(jù)總成本

  • 日/周/月 級(jí)別的存儲(chǔ)使用情況 – 及時(shí)釋放過時(shí)的大存儲(chǔ)文件
  • 日/周/月 級(jí)別的計(jì)算使用情況 – 及時(shí)識(shí)別數(shù)據(jù)上的異常計(jì)算

三、實(shí)操演示

數(shù)據(jù)湖構(gòu)建 DLF 體驗(yàn)鏈接:https://dlf.console.aliyun.com/

原文鏈接

本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的如何快速搭建云原生企业级数据湖架构及实践分享的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。