日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

《大数据之路:阿里巴巴大数据实践》-第1章 总述

發(fā)布時(shí)間:2023/12/14 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《大数据之路:阿里巴巴大数据实践》-第1章 总述 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》系列叢書(shū)

?第1章 總述
第1篇 數(shù)據(jù)技術(shù)篇
?第2章 日志釆集
?第3章 數(shù)據(jù)同步
?第4章 離線數(shù)據(jù)開(kāi)發(fā)
?第5章 實(shí)時(shí)技術(shù)
?第6章 數(shù)據(jù)服務(wù)
?第7章 數(shù)據(jù)挖掘
第2篇 數(shù)據(jù)模型篇
?第8章 大數(shù)據(jù)領(lǐng)域建模綜述
?第9章 阿里巴巴數(shù)據(jù)整合及管理體系
?第10章 維度設(shè)計(jì)
?第11章 事實(shí)表設(shè)計(jì)
第3篇數(shù)據(jù)管理篇
?第12章 元數(shù)據(jù)
?第13章 計(jì)算管理
?第14章 存儲(chǔ)和成本管理
?第15章 數(shù)據(jù)質(zhì)量
第4篇數(shù)據(jù)應(yīng)用篇
?第16章 數(shù)據(jù)應(yīng)用


文章目錄

  • 《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》系列叢書(shū)
  • 第1章 總述
    • 1.數(shù)據(jù)采集層
    • 2.數(shù)據(jù)計(jì)算層
    • 3.數(shù)據(jù)服務(wù)層
    • 4.數(shù)據(jù)應(yīng)用層


第1章 總述

??????2014年,馬云提出,“人類正從IT時(shí)代走向DT時(shí)代”。如果說(shuō)在 IT時(shí)代是以自我控制、自我管理為主,那么到了 DT (Data Technology) 時(shí)代,則是以服務(wù)大眾、激發(fā)生產(chǎn)力為主。以互聯(lián)網(wǎng)(或者物聯(lián)網(wǎng))、 云計(jì)算、大數(shù)據(jù)和人工智能為代表的新技術(shù)革命正在滲透至各行各業(yè), 悄悄地改變著我們的生活。
??????在DT時(shí)代,人們比以往任何時(shí)候更能收集到更豐富的數(shù)據(jù)。IDC 的報(bào)告顯示:預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將超過(guò)40ZB (相當(dāng)于40 萬(wàn)億GB),這一數(shù)據(jù)量是2011年的22倍!正在呈“爆炸式”增長(zhǎng)的數(shù) 據(jù),其潛在的巨大價(jià)值有待發(fā)掘。數(shù)據(jù)作為一種新的能源,正在發(fā)生聚 變,變革著我們的生產(chǎn)和生活,催生了當(dāng)下大數(shù)據(jù)行業(yè)發(fā)展熱火朝天的 盛景。
??????但是如果不能對(duì)這些數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)地分類組織和存儲(chǔ),如 果不能有效利用并發(fā)掘它,繼而產(chǎn)生價(jià)值,那么它同時(shí)也成為一場(chǎng)“災(zāi) 難”。無(wú)序、無(wú)結(jié)構(gòu)的數(shù)據(jù)猶如堆積如山的垃圾,給企業(yè)帶來(lái)的是令人 咋舌的高額成本。
??????在阿里巴巴集團(tuán)內(nèi),我們面臨的現(xiàn)實(shí)情況是:集團(tuán)數(shù)據(jù)存儲(chǔ)達(dá)到 EB級(jí)別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條;在2016年“雙 11購(gòu)物狂歡節(jié)”的24小時(shí)中,支付金額達(dá)到了 1207億元人民幣,支 付峰值高達(dá)12萬(wàn)筆/秒,下單峰值達(dá)17.5萬(wàn)筆/秒,媒體直播大屏處理 的總數(shù)據(jù)量高達(dá)百億且所有數(shù)據(jù)都需要做到實(shí)時(shí)、準(zhǔn)確地對(duì)外披露…… 這些給數(shù)據(jù)采集、存儲(chǔ)和計(jì)算都帶來(lái)了極大的挑戰(zhàn)。
??????在阿里內(nèi)部,數(shù)據(jù)工程師每天要面對(duì)百萬(wàn)級(jí)規(guī)模的離線數(shù)據(jù)處理工 作。阿里大數(shù)據(jù)井噴式的爆發(fā),加大了數(shù)據(jù)模型、數(shù)據(jù)研發(fā)、數(shù)據(jù)質(zhì)量 和運(yùn)維保障工作的難度。
??????同時(shí),日益豐富的業(yè)態(tài),也帶來(lái)了各種各樣、紛繁復(fù)雜的數(shù)據(jù)需求。 如何有效地滿足來(lái)自員工、商家、合作伙伴等多樣化的需求,提高他們 對(duì)數(shù)據(jù)使用的滿意度,是數(shù)據(jù)服務(wù)和數(shù)據(jù)產(chǎn)品需要面對(duì)的挑戰(zhàn)。
??????如何建設(shè)高效的數(shù)據(jù)模型和體系,使數(shù)據(jù)易用,避免重復(fù)建設(shè)和數(shù) 據(jù)不一致性,保證數(shù)據(jù)的規(guī)范性;如何提供高效易用的數(shù)據(jù)開(kāi)發(fā)工具; 如何做好數(shù)據(jù)質(zhì)量保障;如何有效管理和控制日益增長(zhǎng)的存儲(chǔ)和計(jì)算消 耗,如何保證數(shù)據(jù)服務(wù)的穩(wěn)定,保證其性能,如何設(shè)計(jì)有效的數(shù)據(jù)產(chǎn)品 高效賦能于外部客戶和內(nèi)部員工……這些都給大數(shù)據(jù)系統(tǒng)的建設(shè)提出 了更多復(fù)雜的要求。
??????本書(shū)介紹的阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu),就是為了滿足不斷變化的業(yè) 務(wù)需求,同時(shí)實(shí)現(xiàn)系統(tǒng)的高度擴(kuò)展性、靈活性以及數(shù)據(jù)展現(xiàn)的高性能而 設(shè)計(jì)的。
如圖1.1所示是阿里巴巴大數(shù)據(jù)系統(tǒng)體系架構(gòu)圖,從圖中可以清晰 地看到數(shù)據(jù)體系主要分為數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)和數(shù)據(jù)應(yīng)用四 大層次。

1.數(shù)據(jù)采集層

??????阿里巴巴是一家多業(yè)態(tài)的互聯(lián)網(wǎng)公司,幾億規(guī)模的用戶(如商家、 消費(fèi)者、商業(yè)組織等)在平臺(tái)上從事商業(yè)、消費(fèi)、娛樂(lè)等活動(dòng),每時(shí)每 刻都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)采集作為阿里大數(shù)據(jù)系統(tǒng)體系的第一環(huán)尤 為重要。因此阿里巴巴建立了一套標(biāo)準(zhǔn)的數(shù)據(jù)采集體系方案,致力全面、 高性能、規(guī)范地完成海量數(shù)據(jù)的采集,并將其傳輸?shù)酱髷?shù)據(jù)平臺(tái)。
??????阿里巴巴的日志采集體系方案包括兩大體系:Aplus.JS是Web端 日志采集技術(shù)方案;UserTrack是APP端日志釆集技術(shù)方案。在采集技 術(shù)基礎(chǔ)之上,阿里巴巴用面向各個(gè)場(chǎng)景的埋點(diǎn)規(guī)范,來(lái)滿足通用瀏覽、 點(diǎn)擊、特殊交互、APP事件、H5及APP里的H5和Native日志數(shù)據(jù)打 通等多種業(yè)務(wù)場(chǎng)景。同時(shí),還建立了一套高性能、高可靠性的數(shù)據(jù)傳輸 體系,完成數(shù)據(jù)從生產(chǎn)業(yè)務(wù)端到大數(shù)據(jù)系統(tǒng)的傳輸。在傳輸方面,采用TimeTunnel (TT),它既包括數(shù)據(jù)庫(kù)的增量數(shù)據(jù)傳輸,也包括日志數(shù)據(jù) 的傳輸;TT作為數(shù)據(jù)傳輸服務(wù)的基礎(chǔ)架構(gòu),既支持實(shí)時(shí)流式計(jì)算,也 支持各種時(shí)間窗口的批量計(jì)算。另外,也通過(guò)數(shù)據(jù)同步工具(DataX和 同步中心,其中同步中心是基于DataX易用性封裝的)直連異構(gòu)數(shù)據(jù)庫(kù) (備庫(kù))來(lái)抽取各種時(shí)間窗口的數(shù)據(jù)。(注:其中的相關(guān)細(xì)節(jié)將在后續(xù)的 “日志采集”和“數(shù)據(jù)同步”章節(jié)中詳細(xì)說(shuō)明。)

2.數(shù)據(jù)計(jì)算層

??????數(shù)據(jù)只有被整合和計(jì)算,才能被用于洞察商業(yè)規(guī)律,挖掘潛在信息, 從而實(shí)現(xiàn)大數(shù)據(jù)價(jià)值,達(dá)到賦能于商業(yè)和創(chuàng)造價(jià)值的目的。從采集系統(tǒng) 中收集到的大量原始數(shù)據(jù),將進(jìn)入數(shù)據(jù)計(jì)算層中被進(jìn)一步整合與計(jì)算。
??????面對(duì)海量的數(shù)據(jù)和復(fù)雜的計(jì)算,阿里巴巴的數(shù)據(jù)計(jì)算層包括兩大體 系:數(shù)據(jù)存儲(chǔ)及計(jì)算云平臺(tái)(離線計(jì)算平臺(tái)MaxCompute和實(shí)時(shí)計(jì)算平 臺(tái)StreamCompute)和數(shù)據(jù)整合及管理體系(內(nèi)部稱之為"OneData”)。 其中,MaxCompute是阿里巴巴自主研發(fā)的離線大數(shù)據(jù)平臺(tái),其豐富的 功能和強(qiáng)大的存儲(chǔ)及計(jì)算能力使得阿里巴巴的大數(shù)據(jù)有了強(qiáng)大的存儲(chǔ) 和計(jì)算引擎;StreamCompute是阿里巴巴自主研發(fā)的流式大數(shù)據(jù)平臺(tái), 在內(nèi)部較好地支持了阿里巴巴流式計(jì)算需求;OneData是數(shù)據(jù)整合及管 理的方法體系和工具(注:為方便內(nèi)部工作及溝通,在阿里內(nèi)部將這一統(tǒng)一的方法體系和工具簡(jiǎn)稱為“OneData”),阿里巴巴的大數(shù)據(jù)工程師 在這一體系下,構(gòu)建統(tǒng)一、規(guī)范、可共享的全域數(shù)據(jù)體系,避免數(shù)據(jù)的 冗余和重復(fù)建設(shè),規(guī)避數(shù)據(jù)煙囪和不一致性,充分發(fā)揮阿里巴巴在大數(shù) 據(jù)海量、多樣性方面的獨(dú)特優(yōu)勢(shì)。借助這一統(tǒng)一化數(shù)據(jù)整合及管理的方 法體系,我們構(gòu)建了阿里巴巴的數(shù)據(jù)公共層,并可以幫助相似大數(shù)據(jù)項(xiàng) 目快速落地實(shí)現(xiàn)。
??????從數(shù)據(jù)計(jì)算頻率角度來(lái)看,阿里數(shù)據(jù)倉(cāng)庫(kù)可以分為離線數(shù)據(jù)倉(cāng)庫(kù)和 實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)。離線數(shù)據(jù)倉(cāng)庫(kù)主要是指?jìng)鹘y(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)概念,數(shù)據(jù)計(jì)算 頻率主要以天(包含小時(shí)、周和月)為單位;如T-1,則每天凌晨處理 上一天的數(shù)據(jù)。但是隨著業(yè)務(wù)的發(fā)展特別是交易過(guò)程的縮短,用戶對(duì)數(shù) 據(jù)產(chǎn)出的實(shí)時(shí)性要求逐漸提高,所以阿里的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生。“雙 11”實(shí)時(shí)數(shù)據(jù)直播大屏,就是實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的一種典型應(yīng)用。
??????阿里數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)加工鏈路也是遵循業(yè)界的分層理念,包括操作 數(shù)據(jù)層(Operational Data Store, ODS)、明細(xì)數(shù)據(jù)層(Data Warehouse Detail, DWD),匯總數(shù)據(jù)層(Data Warehouse Summary, DWS)和應(yīng) 用數(shù)據(jù)層(Application Data Store, ADS)O通過(guò)數(shù)據(jù)倉(cāng)庫(kù)不同層次之間 的加工過(guò)程實(shí)現(xiàn)從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化,并且對(duì)整個(gè)過(guò)程進(jìn)行有 效的元數(shù)據(jù)管理及數(shù)據(jù)質(zhì)量處理。
??????在阿里大數(shù)據(jù)系統(tǒng)中,元數(shù)據(jù)模型整合及應(yīng)用是一個(gè)重要的組成部 分,主要包含數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)、數(shù)據(jù)鏈路元數(shù)據(jù)、工具 類元數(shù)據(jù)、數(shù)據(jù)質(zhì)量類元數(shù)據(jù)等。元數(shù)據(jù)應(yīng)用主要面向數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù) 管理等,如用于存儲(chǔ)、計(jì)算和成本管理等。

3.數(shù)據(jù)服務(wù)層

??????當(dāng)數(shù)據(jù)已被整合和計(jì)算好之后,需要提供給產(chǎn)品和應(yīng)用進(jìn)行數(shù)據(jù)消 費(fèi)。為了有更好的性能和體驗(yàn),阿里巴巴構(gòu)建了自己的數(shù)據(jù)服務(wù)層,通 過(guò)接口服務(wù)化方式對(duì)外提供數(shù)據(jù)服務(wù)。針對(duì)不同的需求,數(shù)據(jù)服務(wù)層的 數(shù)據(jù)源架構(gòu)在多種數(shù)據(jù)庫(kù)之上,如MySQL和HBase等。后續(xù)將逐漸遷 移至阿里云云數(shù)據(jù)庫(kù)ApsaraDB for RDS(簡(jiǎn)稱“RDS”)和表格存儲(chǔ)(Table Store)等。
??????數(shù)據(jù)服務(wù)可以使應(yīng)用對(duì)底層數(shù)據(jù)存儲(chǔ)透明,將海量數(shù)據(jù)方便高效地 開(kāi)放給集團(tuán)內(nèi)部各應(yīng)用使用。現(xiàn)在,數(shù)據(jù)服務(wù)每天擁有幾十億的數(shù)據(jù)調(diào) 用量,如何在性能、穩(wěn)定性、擴(kuò)展性等方面更好地服務(wù)于用戶;如何滿 足應(yīng)用各種復(fù)雜的數(shù)據(jù)服務(wù)需求;如何保證“雙11”媒體大屏數(shù)據(jù)服 務(wù)接口的高可用……隨著業(yè)務(wù)的發(fā)展,需求越來(lái)越復(fù)雜,因此數(shù)據(jù)服務(wù) 也在不斷地前進(jìn)。
??????數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù)主要是通過(guò)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái)(為 方便閱讀,簡(jiǎn)稱為“OneService")。OneService以數(shù)據(jù)倉(cāng)庫(kù)整合計(jì)算好 的數(shù)據(jù)作為數(shù)據(jù)源,對(duì)外通過(guò)接口的方式提供數(shù)據(jù)服務(wù),主要提供簡(jiǎn)單 數(shù)據(jù)查詢服務(wù)、復(fù)雜數(shù)據(jù)查詢服務(wù)(承接集團(tuán)用戶識(shí)別、用戶畫(huà)像等復(fù) 雜數(shù)據(jù)查詢服務(wù))和實(shí)時(shí)數(shù)據(jù)推送服務(wù)三大特色數(shù)據(jù)服務(wù)。

4.數(shù)據(jù)應(yīng)用層

??????數(shù)據(jù)已經(jīng)準(zhǔn)備好,需要通過(guò)合適的應(yīng)用提供給用戶,讓數(shù)據(jù)最大化 地發(fā)揮價(jià)值。阿里對(duì)數(shù)據(jù)的應(yīng)用表現(xiàn)在各個(gè)方面,如搜索、推薦、廣告、 金融、信用、保險(xiǎn)、文娛、物流等。商家,阿里內(nèi)部的搜索、推薦、廣 告、金融等平臺(tái),阿里內(nèi)部的運(yùn)營(yíng)和管理人員等,都是數(shù)據(jù)應(yīng)用方;ISV、 研究機(jī)構(gòu)和社會(huì)組織等也可以利用阿里開(kāi)放的數(shù)據(jù)能力和技術(shù)。
??????阿里巴巴基于數(shù)據(jù)的應(yīng)用產(chǎn)品有很多,本書(shū)選擇了服務(wù)于阿里內(nèi)部 員工的阿里數(shù)據(jù)平臺(tái)和服務(wù)于商家的對(duì)外數(shù)據(jù)產(chǎn)品——生意參謀進(jìn)行 基礎(chǔ)性介紹。其他數(shù)據(jù)應(yīng)用不再贅述。對(duì)內(nèi),阿里數(shù)據(jù)平臺(tái)產(chǎn)品主要有 實(shí)時(shí)數(shù)據(jù)監(jiān)控、自助式的數(shù)據(jù)網(wǎng)站或產(chǎn)品構(gòu)建的數(shù)據(jù)小站、宏觀決策分 析支撐平臺(tái)、對(duì)象分析工具、行業(yè)數(shù)據(jù)分析門戶、流量分析平臺(tái)等。
??????我們相信,數(shù)據(jù)作為新能源,為產(chǎn)業(yè)注入的變革是顯而易見(jiàn)的。我 們對(duì)數(shù)據(jù)新能源的探索也不僅僅停留在狹義的技術(shù)、服務(wù)和應(yīng)用上。我 們正在挖掘大數(shù)據(jù)更深層次的價(jià)值,為社會(huì)經(jīng)濟(jì)和民生基礎(chǔ)建設(shè)等提供 創(chuàng)新方法。

總結(jié)

以上是生活随笔為你收集整理的《大数据之路:阿里巴巴大数据实践》-第1章 总述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。