日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!...

發布時間:2025/3/16 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中生代技術

鏈接技術大咖,分享技術干貨

全文:4700字

隨著移動互聯網和大數據的蓬勃發展,“數據即資產”的理念深入人心。大數據已發展成為具有戰略意義的生產資料,在各行各業發揮著極其重要的作用,而大數據也給很多企業帶來了前所未有的自豪感和自信感。

圖片來自 Pexels

但是,大數據真的是越“大”越好嗎?大數據到達一定的規模,其所需承載的集群資源成本、數據開發維護成本和數據管理成本,將會呈幾何式增長,同樣也將會帶來一筆巨額的開銷。

如果缺少科學有效的治理管控,就會出現大量的“負”數據資產,這不僅會吞噬公司的利潤,還會極大影響數據業務的發展以及平臺運行的穩定。

很多大數據公司都會面臨這樣一些窘境:

  • 新開發的數據任務,趕緊上,卻發現集群資源不夠了。

  • 早上要跑完的任務,上午還沒跑完,報表什么時候能看到?

  • 上個月剛刪了很多數據,存儲又快滿了,每天還有大量的數據在增長。

  • 小文件數量這么多,集群 NameNode 內存快要爆了……

一個個頭疼的問題接踵而至,面對這些問題我們是不是得換一個視角,給大數據集群資源來一場瘦身,取其精華、去其糟粕,讓大數據集群資源環境更加健康,數據開發工作更加高效,公司投入產出比更加合理。

所以,大數據集群資源治理(以下簡稱“治理”)的工作亟待開展。

治理為何難以推動?

大多數公司在大數據發展初期都是野蠻生長的,它們更關注的是擁有更多的數據,更快速的完成數據業務開發,即使集群資源不夠了,增加機器遠比開展治理來得更快。

治理工作涉及眾多的職能線與部門,角色不同,立場不同,治理投入度也不同。

即使集群資源達到一定規模,不得不治理時,各組織仍會以開發業務為核心,治理工作對他們來說優先級并不高,這也直接影響著治理效果。

治理工作如何開展?

蘇寧認為,治理工作需要從組織保障和治理工具兩方面協同推進。公司的支持至關重要,有助于建設統一的數據文化,推進成立數據治理委員會,明確各組織的職責,制定治理制度、標準和流程等,以專職的治理團隊負責治理工具建設和整體運營推進。

不同于傳統數據資產管理,大數據集群資源治理聚焦計算資源和存儲資源的縮容,在保障平臺性能和穩定性的同時,又需要考量數據資產管理的賦能。

大數據集群資源的治理工作應結合公司現狀,集中精力解決當前最大痛點,優先治理緊急的、投入產出比高的治理項。

對于緊急的治理項,如果涉及的部門和用戶較少,能夠通過面對面、郵件、社交媒體進行溝通,在短時間內解決的,采用線下手工治理方式。

對于非緊急治理項,涉及的部門和用戶較廣,并且需要長期治理的,則采用線上工具輔助治理,以減少人力投入成本。

為此,蘇寧啟動了“巡湖工程”、“千遷工程”等專項治理工程:

  • 巡湖工程,主要任務是對大數據集群資源進行全面的巡檢和治理。

  • 千遷工程,是對高算力的 Hive 任務,進行分批次遷移至 SparkSQL 計算平臺,同時保障治理工作的全面性和聚焦性。

在治理工作方式的演進上,蘇寧采用了四個步驟:線下手工治理、半工具化治理、工具化治理和自驅動治理,最終實現各組織自我驅動型的治理常態。

典型治理場景和方案

大數據集群資源治理是一項龐大且復雜的工程,蘇寧結合自己的治理經歷,從計算治理、存儲治理、性能和穩定性治理三個方面,分享一下典型的治理場景和解決方案。

計算治理

毫無疑問,CPU 和內存是集群的稀缺資源,保障集群資源算力是首要任務。

一旦計算資源缺乏,將面臨數據采集、數據存儲、數據加工、數據稽核等一系列數據作業的延誤,甚至崩潰。

如何降低計算資源的消耗,提高任務執行的性能,縮短任務產出的時間,是計算治理的核心目標。

以下主要從任務復算治理、任務異常治理、任務削峰平谷治理、任務資源配置治理、計算框架優化幾個角度,分別介紹計算治理優化。

①任務復算治理

數倉建設過程中,往往存在事實表與維度表多次關聯、事實表與事實表多次關聯的現象,造成數據的重復計算。

任務復算治理,是面向大數據離線任務 Hive、SparkSQL 等 SQL 類的任務,通過對表與表關聯的 union、join、子查詢復雜關聯等語法進行解析,識別重復計算的任務及其讀取的關聯表(源表)數據,并以此推動公共模型建設,減少任務重復計算。

其中,表關聯 union 方式識別比較簡單,示例如下:

②任務異常治理

任務出錯率是衡量任務是否需要治理的重要指標,出錯率過高意味著這個任務是沒有價值的,一般可以被清除。如果任務確實需要使用,則必須進行優化。

以下作為一個參考,閾值可根據實際情況進行調整:


另外,當任務的目標表在一個或多個調度周期內未作更新,可認定為該任務未產出數據,任務清除下線的可能性很大。

③任務削峰平谷治理

從全天來看,任務執行會有明顯的忙閑時之分。大部分公司的忙時主要集中在凌晨 0 點至 8 點,其余時間段相對為閑時,這就造成了忙時計算資源嚴重緊缺。

大家都想在早上 8 點前跑完任務,但是不是每個忙時任務都有這個必要呢?通過對忙時任務產出表的被讀時間進行分析,可以識別出不合理調度執行的任務。

比如,如果任務在早上 8 點跑完,其寫入的目標表在中午 12 點才被讀取,是否可以將該任務避開忙時執行?

④任務資源配置治理

這里主要談一下 Spark Streaming 實時任務資源治理。Spark Streaming 和 Spark 處理邏輯是相同的,都是收到外部數據流之后按照時間切分。

“微批”處理一個個切分后的文件,往往會存在資源分配過多的現象,這很容易被識別。

由上圖可見,將數據按照時間劃分成 N 等分。假設每批次 A 的間隔時長:batch_time;處理 B 的時長:total_delay;等待 C 的時長:wait_time。

當出現 batch_time>>total_delay 時,當前任務占用的資源會浪費 wait_time。

通過縮減任務資源或多個任務合并成一個任務的方式來治理,都可以提升資源利用率。

雖然 total_delay 會加長,只要整體處理時間還在原定計劃內,即可滿足業務需求。

⑤計算框架優化

計算框架越來越多,也越來越成熟完善,選擇適合自己的計算框架是關鍵。比如,由 Hive 任務遷移至 SparkSQL 任務、Storm 任務遷移至 Flink 任務,會帶來性能上的明顯提升。

但是,在海量數據任務的前提下,任務遷移絕非易事,需要綜合考慮遷移的方案以及涉及的成本和風險。

存儲治理

在數據爆發式增長的今天,存儲資源的有效使用也面臨著一系列的挑戰。如何降低存儲資源的消耗,節省存儲成本,是存儲治理的目標。

以下主要從生命周期管理、數據壓縮治理、數據復存治理、數據價值治理幾個角度介紹存儲治理優化。

①生命周期管理

根據表生命周期對表進行清理刪除,是最常見有效的存儲治理方式。為降低數據丟失風險,可以先對表進行 rename 或通過 ranger 禁止表讀寫權限(相當于邏輯刪除),7 天觀察期過后刪除至回收站,回收站默認保留 3 天后進行最終刪除。

如果表的生命周期設置不合理(過長),也可以根據表的類型、業務情況進行稽核整改。

②數據壓縮治理

數據壓縮治理是最簡單有效的存儲治理方式。數據壓縮的好處顯而易見,可以直接節省磁盤空間,提升磁盤利用率,并且加速網絡傳輸。

但同時數據的壓縮和解壓,需要消耗計算資源。如果集群計算資源緊缺,并且數據經常被讀,則建議根據實際場景選擇合適的數據壓縮方式。

在不同的存儲格式和壓縮算法下,簡單查詢、大寬表查詢和復雜查詢的執行表現均有差異,具體需結合實際場景選擇使用。

③數據復存治理

比較簡單的方式是通過解析 Hive 任務、SparkSQL 任務的代碼邏輯,分析代碼中的讀表、寫表、條件、字段函數,識別讀表和寫表是否重復存儲。

另外,也可以通過表名、字段名的相似度進行識別,并結合某些周期產出數據,抽樣進行相似度對比分析和識別。

如果表數據出現重復存儲,還需要根據鏈路血緣關系找出上游任務,對整個鏈路上的表及上游任務實施“一鍋端”治理。

④數據價值治理

梳理當前業務價值,從數據應用層(包括報表、指標、標簽)源頭分析投入產出比,對整體鏈路資源進行“從上至下”的價值治理。

如果表長時間未作更新(如 32 天)或未被讀取,往往表明這張表價值很低,甚至沒有價值,則可對表進行清理刪除,這時可以優先考慮治理大表、分區表、高成本表。

性能和穩定性治理

集群的性能和穩定性治理涉及眾多方面,這里重點談一下小文件治理和數據傾斜治理。

①小文件治理

HDFS 雖然支持水平擴展,但是不適合大量小文件的存儲。因為 NameNode 將文件系統的元數據存放在內存中,導致存儲的文件數目受限于 NameNode 內存大小。當集群到了一定規模,NameNode 內存就會成為瓶頸。

小文件治理需要根據當前集群的文件數量,定義合適的小文件大小,比如小于 1M。

治理方式需要考慮從源頭控制,在任務中配置文件合并參數,在 HDFS 存儲之前進行小文件合并,但這又會延長任務執行時間。

所以,可選擇在閑時進行周期性的小文件合并。另外,也可以設置小文件占比閾值,根據閾值觸發小文件合并。

②數據傾斜治理

很多時候,我們在用 Hive 或 Spark 任務取數,只是跑了一個簡單的 join 語句,卻跑了很長時間,往往會覺得這是集群資源不夠導致的,但是很大情況下,是出現了“數據傾斜”的情況。

數據傾斜,在 MapReduce 編程模型中十分常見,大量的相同 key 被 partition 分配到一個分區里,造成了“某些任務累死,還拖了后腿,其他任務閑死”的情況,這并不利于資源最大化的有效利用。

由上圖可見,通過對任務執行的監控日志分析,可以很方便的找出數據傾斜任務。

結合具體產生原因、數據分布和業務變化,有針對性的優化任務,任務執行時間能縮短幾十倍以上,效果非常明顯。

治理工具需要具備哪些能力?

面向治理責任人、項目主管、公司領導及治理運營人員,蘇寧構建了統一的集群資源治理平臺,全局把控集群計算資源、存儲資源、性能和穩定性的整體情況,通過平臺“識別通知、治理優化、監督考核”的支撐能力,實現一站式治理服務和閉環流程,降低治理投入的工作量,提升治理成效。

后記

蘇寧建設了較為成熟的數據治理體系和標準流程,多項治理工作同步推進,均取得了顯著的成果,為公司節約了可觀的服務器資源投入成本。

并且,隨著治理工作的推進,各組織也更主動的開展源頭治理,大大減輕了事后治理的工作量。

治理工作不會一蹴而就,也不如前端業務那么容易出彩,顯得“樸實無華”。每一位治理工作者都在背后默默的堅守付出,孜孜不倦地保障著大數據集群資源的最大化有效利用。

未來,蘇寧大數據治理團隊仍將持續推進治理工作,進一步提升治理工具產品支撐能力,賦能治理工作常態化、工具化和智能化。

我們崇尚科技與藝術的結合,最后賦詩一首,希望能幫助有需要的同仁更好的理解這項工作,更快的實現治理目標。

《蘇寧數據治理 三字經》

--韋真

數之初,量本小。猛增長,遇瓶頸。

缺管理,實難控。若不治,隨可崩。

若廣治,懼其繁。治之道,貴以專。

高層挺,強執行。定職責,齊協作。

察現狀,診問題。能識別,準定位。

控增量,降存量。攤成本,明方向。

始源頭,理價值。視場景,擇平臺。

宜壓縮,需清理。去冗余,平峰谷。

治理急,線下先。累經驗,建工具。

能優化,可評估。須考核,納監督。

體系化,智能化。一站式,閉環式。

存儲易,算力難。若有方,皆可成。

作者:韋真

簡介:蘇寧科技集團蘇寧智能 BU 大數據中心數據治理團隊負責人,全面負責蘇寧數據資產管理和大數據集群資源治理工作。長期致力于數據治理領域的研究與實踐,曾服務于運營商、政府、公安等多類行業客戶,在數據治理領域有著豐富的產品規劃、產品建設和運營實踐經驗。

編輯:陶家龍

來源:本文首發于51CTO技術棧,公眾號51CTOblog

END

推薦閱讀

?

螞蟻資深算法專家周俊:從原理到落地,支付寶如何打造保護隱私的共享智能?

?

阿里高級技術專家簫逸:如何畫好一張架構圖?

?

阿里巴巴閑魚架構負責人王樹彬:萬億交易規模技術架構實踐

?

58轉轉技術總監駱俊武:監控系統選型?必讀本篇!

?

螞蟻集團高級架構師郭援非:分布式數據庫是金融機構數字化轉型的最佳路徑

?

工行高級經理林承軍:工行基于 MySQL 構建分布式架構的轉型之路

?

平安銀行吳建峰:RocketMQ 在銀行的應用和實踐

?

阿里高級技術專家張建飛:應用架構分離業務邏輯和技術細節之道

?

知道創宇總監姚昌林:敏捷開發-如何打破研發交付過程中的“墻”

?

微博技術專家陳波:百億級訪問量的應用如何做緩存架構設計

?

天弘基金首席架構師李鑫:微服務接口限流的算法及架構實現

?

阿里P9專家右軍:大話軟件質量穩定性

? ?END ? ?? #接力技術,鏈接價值#

點分享點點贊點在看

總結

以上是生活随笔為你收集整理的苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产区一区二区三区 | 国产熟女一区二区丰满 | 特高潮videossexhd | 日本国产中文字幕 | 国产 福利 在线 | 少妇2做爰bd在线意大利堕落 | 色哟哟无码精品一区二区三区 | 日日夜夜狠狠干 | 丝袜人妻一区 | 奇米精品一区二区三区在线观看一 | www国产精品内射熟女 | 黄色美女一级片 | 91色精品| 成人国产精品入口免费视频 | 欧美丝袜一区二区三区 | 99精品免费观看 | 日本第一页 | 污视频网站在线观看 | 性视屏| 男女免费视频网站 | 亚洲美女黄色片 | 精品成人无码一区二区三区 | 天天躁日日躁狠狠躁喷水 | 影音先锋黄色资源 | 少妇太紧太爽又黄又硬又爽小说 | 性色av免费 | 国产夜色精品一区二区av | 国产毛片视频网站 | 亚洲色欲色欲www | 日批免费网站 | 亚洲aⅴ在线 | 加勒比精品 | 黄色片大全 | 欧美性猛交| 亚洲精品粉嫩小泬20p | 女性喷水视频 | 精品蜜桃一区二区三区 | 小蝌蚪av | 女优中文字幕 | 国产日韩欧美中文字幕 | 香蕉污视频在线观看 | 黄色片18 | 欧美美女一区 | 久久久久久久久久免费 | 五月婷婷一区二区三区 | 熟女少妇一区二区 | 性生交生活影碟片 | 少妇久久久久久被弄高潮 | 国产女人高潮时对白 | 亚洲精品高清无码视频 | 亚洲精品国产精品乱码不66 | 国产欧美一区二区三区在线老狼 | 久久午夜免费视频 | 在线免费视频观看 | 91欧美视频 | 久久久一二三区 | 亚洲一区二区三区四区五区午夜 | 黄色片久久久 | 欧美激情精品久久久久 | 日韩六十路| 99资源| 男女超爽视频免费播放 | av五十路| 欧美性生活网 | 无码人妻一区二区三区精品视频 | 亚洲aaaaaa | 国产中文字幕乱人伦在线观看 | 日韩国产在线观看 | 桃色视频网 | 久久9精品区-无套内射无码 | 成人短视频在线播放 | 色屁屁一区二区三区视频 | 91人人爽| 99久久99久久精品国产片果冻 | free女性xx性老大太 | 免费人成在线观看 | 99嫩草 | 韩国av免费在线 | 毛片一二三区 | 日韩性生交大片免费看 | 午夜美女视频 | ,午夜性刺激免费看视频 | 欧美日韩国产大片 | 欧美性天天影院 | 99精品久久久久 | 亚洲人成在线观看 | 波多野结衣片子 | 桃色网站在线观看 | 欧美人与zoxxxx另类 | 美女高潮视频在线观看 | 欧美第五页 | 午夜a区 | www九九九| 日韩欧美网 | 99久久久无码国产精品性色戒 | 成人乱人乱一区二区三区一级视频 | 天天搞夜夜 | 一区二区欧美日韩 | 欧美激情欧美激情在线五月 |