日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

企业级数据湖实践

發布時間:2024/8/23 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 企业级数据湖实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介:2021云棲大會云原生企業級數據湖專場,阿里云智能高級解決方案架構師周皓為我們帶來《企業級數據湖最佳實踐》的分享。

本文主要分享了數據湖的核心能力及幾個最佳實踐案例。

以下是精彩視頻內容整理

一、統一數據存儲,多引擎對接,運存分離

在這一節開始之前,先回顧一下數據湖幾個核心的能力:

  • 集中存儲、多種引擎對接

各種類型的數據用集中方式統一存儲在OSS,無縫對接如 EMR 等各類計算引擎,支持開源計算生態

  • 數據無需處理、直接存儲

對接多種數據輸入源,提供便捷的數據接入和數據消費通道,多種類型數據都可以按照原始產生的形態直接存儲,隨需再進行處理,對比傳統數倉 schema 限制結構,更適配業務快速發展的應用場景

  • 更靈活架構、運存分離

存算分離架構帶來非常好的靈活性,通過計算與存儲解耦合提供更靈活的系統架構設計空間,讓計算、存儲資源具備更好的擴展性,充分提高資源利用率,極大降低運維管理難度、優化 TCO。這也是本文介紹案例中,客戶選擇數據湖方案的一個重要原因。

二、最佳實踐案例

Yeahmobi- 移動互聯網廣告實踐案例

Yeahmobi,作為一家技術驅動發展的企業國際化智能營銷服務公司,主要涉及到的就是智能營銷業務,每天的業務波動非常大。如果采用傳統的架構,勢必要按照業務的峰值準備資源,就會造成很多 CPU 資源無法得到最大化的利用。這也是許多智能營銷互聯網公司的痛點。基于此,大多企業選擇了數據湖方案。

  • 存儲與計算解耦合,讓計算資源使用量可以按照線上業務量的變化動態增減,減少常駐資源量
  • 多種不同類型計算引擎,輕松對接在線廣告各種場景所需要的分析要求
  • 通過數據湖方案,整體TCO優化達到30%,讓業務形態更具競爭力

只要將數據存儲在數據湖中,計算資源可以按照業務的變化實現動態的伸縮與創建,只需維護一個最小的常駐計算資源就足夠了。在這種情況下,再結合兼具半托管和全托管模式的 EMR 動態伸縮計算及分析的能力,可以極大地降低運維的難度。這也是許多智能營銷公司選擇這套數據湖方案的原因。Yeahmobi 選擇這套數據湖方案后,TCO 降低了30%。

數禾科技-互聯網金融實踐案例

數禾科技是一家互聯網金融科技公司,因其所在行業的特性及本身的業務場景需求,對數據的安全可靠性,以及數據訪問控制的細粒度都有很高的要求。數禾服務了大量內部和外部用戶,數據安全敏感,要求嚴格的數據權限隔離。其次,整個業務變化也需要非常強勁的吞吐能力來支撐計算及存儲。

其實在數禾的發展過程中,最早采用的是最常見最通用的大數據集群構建方式既通過服務器搭建,然而很快就發現這種方式無法跟上業務的快速發展:一是存儲成本顯著增長,一個標準的 HDFS 集群是三個冗余備份,在考慮到水位,整個文件系統的開銷等因素后,存儲成本是顯著增加的。二是因為業務的快速擴容, 如果頻繁增加 HDFS 集群節點,會影響業務的可用性。

基于以上原因,數禾選擇了阿里云數據湖方案。數據湖采用 對象存儲 OSS 作為底座,無需擔心容量的擴展或是小文件的增加。文件數量的快速增加會對 HDFS 集群的 NameNode 造成比較大的壓力,但是對象存儲結構無需擔心文件數量增加,哪怕是到萬億級的 object 的數量,也沒有任何壓力。采用了數據湖方式以后,多 bucket 切分搭配阿里云的 RAM 體系,可以做到非常細膩度的訪問控制。再通過例如 OSS 與 EMR 在軟件層合作優化的 JindoFS 方案,能夠輸出超過 TBS 的吞吐能力,以支撐整個業務的需求,實際操作體驗超越自建HDFS。此外,通過云上彈性資源能力,任務可以隨需進行千臺規模節點的彈性伸縮,達到降本增效的效果。

數據湖經典使用場景-冷熱數據分層

模式特點

  • 應用與業務系統的長期運行積累了大量的冷數據,不斷增長的冷數據對現有集群的存儲空間壓力大
  • 需要解決冷數據存儲空間,同時為訪問頻繁的熱數據留出性能優化空間
  • 優化冷數據的長期存儲成本,要能遠低于熱數據存儲成本,并且冷數據要能便于讀取

冷熱數據分層是數據湖的一個經典使用方式。應用與業務系統的長期運行會產生大量冷數據,對整個集群的運維產生非常大的壓力。一方面是規模上的壓力,通用的大數據集群里面的服務器架構比較同構導致冷數據的優化的空間不大,如果通過增加高密度的或者異購的機型,在實踐中會導致集群運維管理難度的大幅度提升。另外一方面是在 IDC 環境中,要想快速擴容,物理集群會受限于很多因素。這也是很多數據湖客戶從傳統的大數據集群架構往數據湖遷移的原因。目前已經有很多客戶擁抱了數據湖,全面使用 OSS。無法一步到位的時候,客戶會先將溫數據和冷數據先沉降到 OSS。早在2016年,OSS 就已經與 Hadoop 生態充分融合,Hadoop 3.0可以直接訪問 OSS,寫好的任務不用做任何修改就可以直接運行,大幅減少了遷移的難度。遷移過來之后,OSS 上的智能生命周期管理簡單地配置一個生命周期策略,就可以按照規則把冷數據進一步沉降到歸檔和冷歸檔類型中,進一步降低成本。

教育科技平臺實踐案例

客戶價值

  • 通過 OSS 多存儲類型和數據生命周期管理,實現冷數據長期存儲的成本優化,通過云上承載冷數據,IDC 自建集群無需擴容,解決機房空間難題
  • 通過 OSS 數據湖的高可擴展性,有效的幫助客戶解決了大數據存儲的性能吞吐問題,規避了自建 HDFS 文件系統在元數據節點的性能瓶頸
  • 客戶已經在規劃進一步通過云上彈性資源去擴容計算資源,減小一次性資源投入

這是一個冷熱分層的實際案例。教育平臺涉及到的業務場景包含各種日志的采集,通過使用的日志幫助學生改進學習。這個客戶也面臨一個問題,大量日志采集以后對于空間占用會造成非常大的壓力。客戶又是自建 IDC,很難在一段時間內就完成物理空間的擴容,所以最后選擇了數據湖方案。通過專線打通了 IDC 和阿里云的連接,使用阿里云的資源擴容現有 IDC ,再通過專線將線下的冷數據遷移到了數據湖中,為線下的業務騰出了空間,壓力釋放以后,空間就非常靈活了。然后進一步將很多應用日志直接入湖,通過對象存儲及多版本能力,為數據可靠性提供更多的保障,同時也使用了冷歸檔能力將溫數據進一步沉降以降低成本。入湖的數據則通過專線拉到本地計算,但是在數據湖的使用過程中,客戶想進一步使用云上的計算資源以擴容計算能力,就無需一次性采購線下的計算服務器,進一步降低成本。

全球化在線游戲實踐案例

客戶價值

  • 通過日志服務,打通應用日志的采集、投遞,貫通實時計算引擎,為后續的用戶熱力圖 ,用戶軌跡,用戶登陸,在線人數統計提供數據支撐
  • 通過 OSS 數據湖承載所有日志數據的長期存儲,與離線分析引擎結合,能夠更深入對日志數據進行分析
  • 全球統一化架構部署,對于一款面向全球化的游戲,可以保證在全球任何一個區域都可以使用相同的部署方式,簡化運維部署難度

一款全球化的游戲一般要服務全球玩家,這就要求全球統一化架構部署以降低運維難度,而阿里云數據湖在全球任何一個區域都可以使用相同的部署方式,可以完全匹配客戶的需求。此外,游戲行業日志的采集非常關鍵,比如游戲在線人數的大屏展示,就是通過采集應用服務器的日志去做分析。針對這個客戶,我們采用了阿里云的日志服務,從千臺萬臺機器規模的應用服務器中實時采集日志,推送到 Flink 中做實時計算,并將結果實時寫入到 ClickHouse,提供實時性的查詢。OSS 在這個場景中,作為了日志的的永久存儲。SLS 把采集的日志定期投遞到 OSS ,并且通過 OSS SDK 和一些命令行工具,直接將一些應用日志傳到 OSS ,存儲到 OSS 的日志可以進一步通過離線分析,如通過 Spark、Hive 做更大規模的分析,并將深度分析的結果再寫入到 ClickHouse,提供更多的分析查詢。

小鵬汽車-自動駕駛實踐案例

數據湖與各種存儲產品之間是無縫打通的。在這個自動駕駛案例中,我們提供了一套完整的從采集到存儲到分析的方案。閃電立方提供了車載的部署能力,解決了自動駕駛場景下每天采集的大量路面數據的存儲問題,采集完以后通過就近的接入點快速地存儲到 OSS 數據湖中去,解決了最后一公里的問題,把數據上傳到 OSS 以后,可以直接使用阿里云的各項計算引擎,包括 EMR、MaxCompute 等對數據進行各種各樣的清洗標注和分析。CPFS 是阿里云上的一款支持大規模并行計算的存儲產品,它有非常高的吞吐能力,并且是 posix 語義的。OSS 數據湖與 CPFS 無縫的數據流動,使得訓練數據也能傳遞到 CPFS中,對數據 GPU 進行分析,并將最終的結果寫回到 OSS 做長期的存儲。

不光在互聯網領域,包括自動駕駛、高性能計算等都已經廣泛的應用數據湖。希望有更多的用戶可以在生產業務中引入阿里云數據湖。

原文鏈接
本文為阿里云原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的企业级数据湖实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。