Alibaba Cluster Data 开源:270GB 数据揭秘你不知道的阿里巴巴数据中心
打開一篇篇 IT 技術(shù)文章,你總能夠看到“大規(guī)模”、“海量請(qǐng)求”這些字眼。如今,這些功能強(qiáng)大的互聯(lián)網(wǎng)應(yīng)用,都運(yùn)行在大規(guī)模數(shù)據(jù)中心上,然而,對(duì)于大規(guī)模數(shù)據(jù)中心,你又了解多少呢?實(shí)際上,除了閱讀一些科技文章之外,你很難得到更多關(guān)于數(shù)據(jù)中心的信息。數(shù)據(jù)中心每個(gè)機(jī)器的運(yùn)行情況如何?這些機(jī)器上運(yùn)行著什么樣的應(yīng)用?這些應(yīng)用有有什么特點(diǎn)?對(duì)于這些問(wèn)題,除了少數(shù)資深從業(yè)者之外,普通學(xué)生和企業(yè)的研究者很難了解其中細(xì)節(jié)。
1 什么是Alibaba Cluster Data?
2015 年,我們嘗試在阿里巴巴的數(shù)據(jù)中心,將延遲不敏感的批量離線計(jì)算任務(wù)和延遲敏感的在線服務(wù)部署到同一批機(jī)器上運(yùn)行,讓在線服務(wù)用不完的資源充分被離線使用以提高機(jī)器的整體利用率。經(jīng)過(guò) 3 年多的試驗(yàn)論證、架構(gòu)調(diào)整和資源隔離優(yōu)化,目前這個(gè)方案已經(jīng)走向大規(guī)模生產(chǎn)。我們通過(guò)混部技術(shù)將集群平均資源利用率從 10% 大幅度提高到 45%。另外,通過(guò)各種優(yōu)化手段,可以讓更多任務(wù)運(yùn)行在數(shù)據(jù)中心,將“雙11”平均每萬(wàn)筆交易成本下降了 17%,等等。
那么,實(shí)施了一系列優(yōu)化手段之后的計(jì)算機(jī)集群究竟是什么樣子?混部的情況究竟如何?除了文字性的介紹,直接發(fā)布數(shù)據(jù)能夠更加拉近我們與學(xué)術(shù)研究、業(yè)界同行之間的距離。為了讓有興趣的學(xué)生以及相關(guān)研究人員,可以從數(shù)據(jù)上更加深入地理解大規(guī)模數(shù)據(jù)中心,我們特別發(fā)布了這份數(shù)據(jù)集。數(shù)據(jù)集中記錄了某個(gè)生產(chǎn)集群中服務(wù)器以及運(yùn)行任務(wù)的詳細(xì)情況。在數(shù)據(jù)集中,你可以詳細(xì)了解到我們是如何通過(guò)混部把資源利用率提高到 45%;我們每天到底運(yùn)行了多少任務(wù);以及業(yè)務(wù)的資源需求有什么特點(diǎn),等等。如何使用這份數(shù)據(jù)集,完全取決于你的需要。
2 你用這個(gè)數(shù)據(jù)可以做什么?
剛剛發(fā)布的 Alibaba Cluster Data V2018 包含 6 個(gè)文件,壓縮后大小近 50GB(壓縮前 270+GB),里面包含了 4000 臺(tái)服務(wù)器、相應(yīng)的在線應(yīng)用容器和離線計(jì)算任務(wù)長(zhǎng)達(dá) 8 天的運(yùn)行情況,具體信息你可以在 GitHub 中找到。
通過(guò)這份數(shù)據(jù),你可以:
只看上面這幾點(diǎn),沒有接觸過(guò)類似數(shù)據(jù)的朋友,可能對(duì)于這份數(shù)據(jù)的用處還是沒有概念,下面我舉幾個(gè)簡(jiǎn)單的例子:
- 電商業(yè)務(wù)在白天和晚上面臨的壓力不同,我們?nèi)绾卧跇I(yè)務(wù)存在波峰波谷的情況下提高整體資源利用率?
- 你知道我們最長(zhǎng)的 DAG 有多少依賴嗎?
- 一個(gè)典型的容器存在時(shí)間是多久?
- 一個(gè)計(jì)算型任務(wù)的典型存在時(shí)間是多少?一個(gè) Task 的多個(gè) Instance 理論上彼此很相似,但是它們運(yùn)行的時(shí)間都一樣嗎?
實(shí)際上,學(xué)者們甚至可以用這些數(shù)據(jù)作出更加精彩地分析。
2017年,我們?cè)_放的第一波數(shù)據(jù)(Alibaba Cluster Data V2017),已經(jīng)產(chǎn)生了多篇優(yōu)秀的學(xué)術(shù)成果。以下是學(xué)者們?cè)谡撐闹幸脭?shù)據(jù)(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 這樣頂級(jí)學(xué)術(shù)會(huì)議收錄的優(yōu)秀文章。我們期待,未來(lái)你也能與我們共同分享你用這份數(shù)據(jù)產(chǎn)生的成果!
“LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI’18” (Best paper award!)
“Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017”
“CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018”
“The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018”
3 Cluster Data V2018的不同
新版本 V2018 與 V2017 存在兩個(gè)最大的區(qū)別:
DAG 信息加入
我們加入了離線任務(wù)的 DAG 任務(wù)信息,據(jù)了解,這是目前來(lái)自實(shí)際生產(chǎn)環(huán)境最大的 DAG 數(shù)據(jù)。
什么是 DAG?
離線計(jì)算任務(wù),例如 Map Reduce、Hadoop、Spark、Flink 中常用的任務(wù),都是以有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)的形式進(jìn)行編排的,其中涉及到任務(wù)之間的并行、依賴等方面。下面是一個(gè) DAG 的例子。
規(guī)模更大
上一版數(shù)據(jù)包含了約 1300 臺(tái)機(jī)器在約 24 小時(shí)的內(nèi)容數(shù)據(jù),而新版 Cluster Data V2018 中包括了 4000 臺(tái)機(jī)器 8 天的數(shù)據(jù)。
完成問(wèn)卷即可獲取數(shù)據(jù)格式描述和數(shù)據(jù)的下載鏈接:http://alibabadeveloper.mikecrm.com/BdJtacN
總結(jié)
以上是生活随笔為你收集整理的Alibaba Cluster Data 开源:270GB 数据揭秘你不知道的阿里巴巴数据中心的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 51个国家,2372名选手,20万奖金池
- 下一篇: Knative 初体验:Build He