连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力
亞馬遜曾經是 Oracle 全球數據庫最大的用戶,我們使用了75PB 的數據庫,用了7500 多個數據庫的例子,整個亞馬遜里面 1000 多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業務的很多方面原來都是基于 Oracle 的數據庫。
我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了 Oracle 的數據庫,去年大概 11 月份我們全部遷移了 Oracle 的數據庫,遷移到了我們自己相對應的產品。這個遷移解決了原來擴展困難、費用昂貴,像 Oracle 支持高額費用等等一系列的問題,減少了數據庫費用成本 60%,減少了管理費用 70%,增加的性能高達 40%。
在近日的一場媒體溝通會上,AWS 首席云計算企業戰略顧問張俠如此感慨。這相似的一幕,雷鋒網編輯曾經兩次在 AWS re:Invent 現場聽到亞馬遜 CTO 沃納·威格爾提起過。
然而,當年那場大獲全勝的“去O”僅僅只是開始,實際上 AWS 多年來對于數據做了相當多的細致工作。
就在 3 月 24 日這天,AWS 連續宣布 2 個新產品正式在由西云數據運營的 AWS 中國(寧夏)區域上線:AWS Glue 和 Amazon Athena。
從具體功能來看:
AWS Glue 在由西云數據運營的 AWS 中國(寧夏)區域正式上線。AWS Glue 是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用 AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于 AWS Glue 是無服務器服務,客戶在執行 ETL 任務時,只需要為他們所消耗的計算資源付費。
Amazon Athena 在由西云數據運營的 AWS 中國 (寧夏) 區域正式上線。Amazon Athena 是一種交互式查詢服務,它讓客戶可以使用標準 SQL 語言、輕松分析 Amazon Simple Storage Service (Amazon S3) 中的數據。由于 Athena 是一種無服務器服務,因此客戶不需要管理基礎設施,而且只為他們運行的查詢付費。Athena 可以自動擴展,并行執行查詢,所以即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。
這 2 個發布,也意味著 AWS 在數據湖和數據分析的解決方案上越趨完整。
溝通會上,張俠也對 AWS 的數據工作進行了深入闡釋,對 AWS 的數據服務、產品、重要概念及操作手法做了介紹,同時揭示了 AWS 構建數據湖進行分析的背后邏輯。
雷鋒網特在其原話基礎上做了不改變原意的編輯與整理。
亞馬遜是怎么來實現數據湖的概念的?
數據湖的概念大概最早是 2011 年 5 月份提出來的,所以到現在只有八九年的時間。
亞馬遜在很早的時間就推動了有關數據湖的內容,首先亞馬遜有一個最基礎的云服務,這個服務叫做 Amazon S3,是 2006 年 3 月 14 日白色情人節的那天發布的,是全球所有的公有云服務的第一款。Amazon S3 可以存任何二進位為基礎的任何信息,包含結構化和非結構化的數據。左邊這個圖上半部的服務,可以圍繞這些數據來做各種各樣的操作。底下畫的是一些做數據轉移的工具。
從右邊可以大致看一下數據湖的流程圖或者平臺架構圖,總的來說各種各樣的數據,從鏡頭來的、從手機來的、從數據庫來的、從汽車上來的、從風力發電的發電機來的等等所有各種形式的數據,我們把它通過一定的方法提取出來,產生了之后存儲下來,做一個目錄登記,然后把它存在 S3 這個數據存儲,也是數據湖的核心里面。
然后再用各種各樣的分析手段把這些數據在右邊拿出來,它還可以還原成數據倉庫的性質,也可以變成各種報表,也可以變成一些預測,也可以用來做機器學習的分析。所以這個是整個數據湖的概念。
基于此,我們看到數據湖是一個對各種各樣原始數據,就像雨水、河水等等,我們用洼地把它存起來,這里面有各種各樣的數據,我們在這之上可以做我們所需要的各類數據分析,有交互式的查詢、有運營的分析、也可以把數據進行交換甚至是買賣,可以可視化的看到這些數據,可以做實時的分析,可以做推薦、做預測,做所有的數據所需要的功能。
從 AWS 的角度講,我們有相應的服務來實現剛才所說的每一個功能。我會為大家做一下這些服務的簡單介紹。所有這些服務在我們的網站上都有很詳細的中英文介紹。所有這些服務都是以云的方式提供的,非常簡潔、非常容易上手,有很多還有操作的引導性質的內容。
我們在此之前已經講了我們有 Amazon S3,可以存所有各類的數據,它有 11 個 9 的數據持久性,它是在云上面三個可用區存了六份,互為備份。它后端還有一個冷存儲叫 Amazon Glacier (glacier 的意思是冰河) 。如果這個數據不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。
冷存儲還有一個深度的冷存儲 Deep Archive。除了這個以外,在我開始講之前,還有一個叫 Amazon DynamoDB,是一個非關系型數據庫,存鍵值這類的數據。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數都是鍵值配對的數。全球有大量這樣的數據都存儲在 Amazon DynamoDB 這樣的非關系型數據庫。
看一看其他的服務。一個是 Amazon RDS 服務,RDS 全稱是 Relational Database Service,是一個托管的關系型數據庫,這個是從 AWS 角度最早云計算推出的關系型數據庫,它支持像 SQL Server、Oracle 的數據庫、開源的 PostgreSQL、MySQL 這樣的數據庫。
我們很快又推出了我們專有的 Amazon Aurora 數據庫,這是一個關系型數據庫,是云原生的。剛才那個是托管在云上的關系型數據庫,現在這個 Aurora 是一個全部的全方位托管的,可以兼容 MySQL 和 PostgreSQL 純原生的數據庫。
這個數據庫推出以后,是 AWS 所有的云服務里面增長速度最快的一個服務,有大量的用戶,到目前為止,我提到這些服務都是在中國落地了,也都是在國內提供的。
很重要的一個產品是一個云的產品,叫 Amazon Redshift,它是一個數據倉庫,但是它是一個云的數據倉庫,非常強大,非常能夠縮放,成本也是傳統的數據庫的大概1/10 左右。如果你從數據庫還需要到數據倉庫,大家看到在云上我們同樣完全可以實現這些解決方案,從數據庫到數據倉庫。而且數據倉庫我們還有很多很多新型的準備,在這次會議當中不可能完全提到。
我給大家報告一下其中包括圖形數據庫 Amazon Neptune,全球發布之后,在過去的半年之內也在中國落地。所以中國用戶也能使用最新型的圖形數據庫。
還有一類是 Amazon EMR,EMR 是 Elastic MapReduce,它是用集群,用類似開源我們常聽說的 Hadoop 的方法來做大數據的集群分析。這個 EMR 產品是亞馬遜云上做海量大數據的研究它們之間的相關性的方法,這個產品我們也有了很長時間,在國內也早已提供。
還有一個很重要的概念,就是來處理實時的數據,因為和原來的比,現在的特點是更多要使用實時的數據,原來更多的是批量的歷史數據,處理實時數據我們的服務叫 Amazon Kinesis,還有四個不同的類型,有的是直接處理視頻的數據流,有的是可以把數據直接導到關鍵的服務,每個各自都有不同的用法。這個實時數據分析是分析框架很重要的一部分。
兩個數據湖中重要服務:Amazon Athena 和 AWS Glue
重點給大家推介的是下面兩個服務,都是數據湖非常重要的組成部分,我們是在今年第一季度才在中國正式發布的。
第一個產品叫做 Amazon Athena,英文 Athena 意思是雅典娜,這是交互式的數據查詢的工具。我們把各種數據都存在 S3 上面了,使用 SQL 可以直接在 S3 里面對這些數據做查詢,所以它是交互式的查詢,使得快速存起來的海量的數據有個工具可以像傳統的使用 SQL 語言一樣的方法,標準的數據庫查詢的語言,直接對 S3 做數據的查詢。
第二個服務叫做 AWS Glue,Glue 是膠水的意思,是不同的數據庫服務之間的連接的作用。最主要有兩個功能,一個是 ETL,ETL 是 Extract、Transform 和 Load,是數據里面一個最基本的操作,翻譯過來就叫數據的抽取、轉換和加載。原來從數據庫提到數據倉庫使用的都是 ETL,所以 Glue 同時還是行使著數據的抽取、轉換、加載的功能。另外還多了一個功能,就是數據目錄服務的功能,因為把這些數據都存在數據湖里面,在這個過程中,要對這些數據打上標簽,把它做分類的工作。而且 Glue 有一個直接就像爬蟲一樣對數據湖里的海量數據,通過它的自動爬取,生成數據目錄的功能。
所以這兩個服務我們在海外推出有一段時間,但是我們在今年在國內都完成了它們的正式發布,所以目前我們和光環新網聯合運行的北京的區域,還有和西云數據在寧夏中衛運營的區域里面,都已經提供了這些服務。
雖然數據湖是一個非常好的辦法,但是還是稍微有一定的復雜度。我非??斓慕榻B一下數據湖的操作步驟。
我們把數據設置好,存起來,然后把這些數據需要移動、加載到不同的地方,然后把數據清理好,建成數據目錄。要管理的這些存儲,然后把這些數據要安全的、合規的存好、管好,然后需要的時候有些工具把這些數據拿出來做各種分析。這就是數據湖操作的一些步驟。
我們也專門推出了一個服務,這個服務叫做 AWS Lake Formation,是在前年的技術大會上我們發布的,這個服務目前還沒有在中國正式推出,但是我們在今年很快的時間內會推出這個服務,把建立數據湖剛才的這套工作自動化,幫助你來操作,可以使很多企業在短短的幾天的時間完成數據湖的建設工作。
從亞馬遜來說,我們還有一些更多的服務,比如我們有量子的記賬式的數據庫、有時間序列的數據庫,還有兩三個新型數據庫目前還沒有提供。
在這之上是數據湖,數據湖最主要的元素是三大元素:一個是 Amazon S3/Glacier,一個是 AWS Glue,一個是 AWS Lake Formation。AWS Lake Formation 是目前沒有提供,但是很快會提供的一個產品服務。
數據分析的工具,Amazon Redshift 是數據倉庫,Amazon EMR 是大數據分析,AWS Glue 在里面仍起關鍵作用,來實現無服務器的數據分析,然后是 Amazon Athena (雅典娜) 是做交互式的分析,Amazon Elasticsearch 是做一些運維分析,還有 Amazon Kinesis 做實時的數據分析。
最上面是我們的一些展現工具,有圖形可視化的 Amazon QuickSight,還有 Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker 是一個人工智能的服務,在中國很快會推出。
所以整個大數據分析服務的全景圖就以這張圖給大家展示出來。絕大多數服務在中國都已經落地,我們已經全方位的可以提供最先進的數據湖的大數據分析,我們有很多客戶來使用。
為什么使用 AWS 來構建數據湖和進行分析?
為什么使用 AWS 來構建數據湖和進行分析呢?
簡而言之,它既好用又高效又全面又安全,又能滿足多種多樣的需求。AWS 的創新都是圍繞客戶需求來做的。
Forrester 2019 年大數據分析的報告,AWS 是排在最高的位置,其實還有類似的一些其他的,比如 Gartner 的數據庫的分析報告,還有數據管理工具解決方案的報告,我們都排在很好的位置。在全球范圍內,包括在中國,其實有大量的各種各樣的無論是互聯網公司還是傳統企業公司都在使用 AWS 的數據分析、數據湖的分析工具。
即使是使用了全套數據湖的也有上萬家企業,其中大家看到有 Airbnb,yelp 相當于美國的大眾點評,有旅行的公司,有最大的制藥公司等等,幾乎覆蓋了各行各業。
不用講別人,就講講亞馬遜自己。
亞馬遜曾經是 Oracle 全球數據庫最大的用戶,它使用了 75PB 的數據庫,用了 7500 多個數據庫的例子,整個亞馬遜里面 1000 多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業務的很多方面原來都是基于 Oracle 的數據庫。
我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了 Oracle 的數據庫,去年大概 11 月份我們全部遷移了 Oracle 的數據庫,遷移到了我們自己相對應的產品。這個遷移解決了原來擴展困難、費用昂貴,像 Oracle 支持高額費用等等一系列的問題,減少了數據庫費用成本 60%,減少了管理費用 70%,增加的性能高達 40%。
另外一個例子,就是亞馬遜其實在整個企業內部建立了一個數據湖,這個數據湖還專門有一個內部的詞,叫 Galaxy (銀河),這不是 AWS 的一個產品,這是亞馬遜的一個數據湖的部署。
整個數據湖把亞馬遜的數據整合在一起,做各種各樣大數據的分析,里面存了 50PB 到 100PB 的數據,這里面通過它,亞馬遜每一天有多達 60 萬的分析任務,各種各樣的數據的分析,從給用戶的推薦、各種運營的信息、庫存的信息、需要購買的信息、物價的信息,都是可以通過數據湖來實現的功能。
這也是亞馬遜的一個核心競爭力。
總結
以上是生活随笔為你收集整理的连续推出2款数据湖新品,AWS张侠剖析亚马逊的数据核心竞争力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源:从“复兴”走向“商业化”
- 下一篇: 华为P40系列发布:镜头大幅升级 搭载H