阿里云大数据计算服务MaxCompute(上篇)
關(guān)于阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute的詳細(xì)內(nèi)容:
阿里云大數(shù)據(jù)計(jì)算服務(wù)MaxCompute使用教程
(MaxCompute(原ODPS)是一項(xiàng)大數(shù)據(jù)計(jì)算服務(wù),它能提供快速、完全托管的PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案,使您可以經(jīng)濟(jì)并高效的分析處理海量數(shù)據(jù)。)
大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原名 ODPS)是一種快速、完全托管的 GB/TB/PB 級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案。MaxCompute 為您提供了完善的數(shù)據(jù)導(dǎo)入方案以及多種經(jīng)典的分布式計(jì)算模型,能夠更快速的解決海量數(shù)據(jù)計(jì)算問題,有效降低企業(yè)成本,并保障數(shù)據(jù)安全。
同時(shí),大數(shù)據(jù)開發(fā)套件和 MaxCompute 關(guān)系緊密,大數(shù)據(jù)開發(fā)套件為 MaxCompute 提供了一站式的數(shù)據(jù)同步,任務(wù)開發(fā),數(shù)據(jù)工作流開發(fā),數(shù)據(jù)管理和數(shù)據(jù)運(yùn)維等功能,詳情請(qǐng)參見大數(shù)據(jù)開發(fā)套件。
MaxCompute 主要服務(wù)于批量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算,可以提供海量數(shù)據(jù)倉(cāng)庫(kù)的解決方案以及針對(duì)大數(shù)據(jù)的分析建模服務(wù)。隨著社會(huì)數(shù)據(jù)收集手段的不斷豐富及完善,越來越多的行業(yè)數(shù)據(jù)被積累下來。數(shù)據(jù)規(guī)模已經(jīng)增長(zhǎng)到了傳統(tǒng)軟件行業(yè)無法承載的海量數(shù)據(jù)(百 GB、TB 乃至 PB)級(jí)別。
在分析海量數(shù)據(jù)場(chǎng)景下,由于單臺(tái)服務(wù)器的處理能力限制,數(shù)據(jù)分析者通常采用分布式計(jì)算模式。但分布式的計(jì)算模型對(duì)數(shù)據(jù)分析人員提出了較高的要求,且不易維護(hù)。使用分布式模型,數(shù)據(jù)分析人員不僅需要了解業(yè)務(wù)需求,同時(shí)還需要熟悉底層計(jì)算模型。MaxCompute 的目的是為您提供一種便捷的分析處理海量數(shù)據(jù)的手段,您可以不必關(guān)心分布式計(jì)算細(xì)節(jié),便可達(dá)到分析大數(shù)據(jù)的目的。
MaxCompute 已經(jīng)在阿里巴巴集團(tuán)內(nèi)部得到大規(guī)模應(yīng)用,例如:大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)和 BI 分析、網(wǎng)站的日志分析、電子商務(wù)網(wǎng)站的交易分析、用戶特征和興趣挖掘等。
產(chǎn)品優(yōu)勢(shì)
大規(guī)模計(jì)算存儲(chǔ)
MaxCompute 適用于 100GB 以上規(guī)模的存儲(chǔ)及計(jì)算需求,最大可達(dá) EB 級(jí)別。
多種計(jì)算模型
MaxCompute 支持 SQL、MapReduce、Graph 等計(jì)算類型及 MPI 迭代類算法。
強(qiáng)數(shù)據(jù)安全
MaxCompute 已穩(wěn)定支撐阿里全部離線分析業(yè)務(wù)7年以上,提供多層沙箱防護(hù)及監(jiān)控。
低成本
與企業(yè)自建私有云相比,MaxCompute 的計(jì)算存儲(chǔ)更高效,可以降低 20%-30% 的采購(gòu)成本。
功能概述
數(shù)據(jù)通道
支持批量、歷史數(shù)據(jù)通道 TUNNEL 是 MaxCompute 為您提供的數(shù)據(jù)傳輸服務(wù),提供高并發(fā)的離線數(shù)據(jù)上傳下載服務(wù)。支持每天 TB/PB 級(jí)別的數(shù)據(jù)導(dǎo)入導(dǎo)出,特別適合于全量數(shù)據(jù)或歷史數(shù)據(jù)的批量導(dǎo)入。Tunnel 提供 Java 編程接口供您使用,并且在 MaxCompute 的客戶端工具中,有對(duì)應(yīng)的命令實(shí)現(xiàn)本地文件與服務(wù)數(shù)據(jù)的互通。
實(shí)時(shí)、增量數(shù)據(jù)通道 針對(duì)實(shí)時(shí)數(shù)據(jù)上傳的場(chǎng)景,MaxCompute 提供了延遲低、使用方便的 DataHub 服務(wù),特別適用于增量數(shù)據(jù)的導(dǎo)入。Datahub 還支持多種數(shù)據(jù)傳輸插件,例如:Logstash、Flume、Fluentd、Sqoop 等,同時(shí)支持日志服務(wù) Log Service 中的日志數(shù)據(jù)一鍵投遞至 MaxCompute,進(jìn)而使用大數(shù)據(jù)開發(fā)套件進(jìn)行日志分析和挖掘。
計(jì)算及分析任務(wù)
MaxCompute 支持多種計(jì)算模型,詳情如下:
SQL:MaxCompute 只能以表的形式存儲(chǔ)數(shù)據(jù),并對(duì)外提供了 SQL 查詢功能。您可以將 MaxCompute 作為傳統(tǒng)的數(shù)據(jù)庫(kù)軟件操作,但其卻能處理 TB、PB 級(jí)別的海量數(shù)據(jù)。 注意:
MaxCompute SQL 不支持事務(wù)、索引及 Update/Delete 等操作。 MaxCompute 的 SQL 語法與 Oracle,MySQL 有一定差別,您無法將其他數(shù)據(jù)庫(kù)中的 SQL 語句無縫遷移到 MaxCompute 上來。 在使用方式上,MaxCompute SQL 最快可以在分鐘,乃至秒級(jí)別完成查詢,無法在毫秒級(jí)別返回結(jié)果。 MaxCompute SQL 的優(yōu)點(diǎn)是學(xué)習(xí)成本低,您不需要了解復(fù)雜的分布式計(jì)算概念。如果您具備數(shù)據(jù)庫(kù)操作經(jīng)驗(yàn),便可快速熟悉 MaxCompute SQL 的使用。
UDF:即用戶自定義函數(shù)。 MaxCompute 提供了很多 內(nèi)建函數(shù) 來滿足您的計(jì)算需求,同時(shí)您還可以通過創(chuàng)建自定義函數(shù)來滿足不同的計(jì)算需求。
MapReduce:MaxCompute MapReduce 是 MaxCompute 提供的 Java MapReduce 編程模型,它雖與通用的 MapReduce 有所區(qū)別,但可以簡(jiǎn)化開發(fā)流程,更為高效。您若使用 MaxCompute MapReduce,需要對(duì)分布式計(jì)算概念有基本了解,并有相對(duì)應(yīng)的編程經(jīng)驗(yàn)。MaxCompute MapReduce 為您提供 Java 編程接口。 Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的圖計(jì)算處理框架。圖計(jì)算作業(yè)使用圖進(jìn)行建模,圖由點(diǎn) (Vertex)和邊(Edge)組成,點(diǎn)和邊包含權(quán)值(Value)。通過迭代對(duì)圖進(jìn)行編輯、演化,最終求解出結(jié)果,典型應(yīng)用:PageRank,單源最短距離算法 ,K-均值聚類算法 等。 SDK
SDK 是 MaxCompute 提供給開發(fā)者的工具包,詳情請(qǐng)參見 SDK 介紹。
安全
MaxCompute 提供了功能強(qiáng)大的安全服務(wù),為您的數(shù)據(jù)安全提供保護(hù),詳情請(qǐng)參見 安全參考手冊(cè)。
后續(xù)步驟
現(xiàn)在,您已經(jīng)學(xué)習(xí)了 MaxCompute 的產(chǎn)品優(yōu)勢(shì)、功能特性等相關(guān)簡(jiǎn)介,您可以繼續(xù)學(xué)習(xí)下一個(gè)教程。在該教程中您將快速了解如何使用 MaxCompute,詳情請(qǐng)參見 快速開始。
發(fā)展歷程
更新時(shí)間:2017-09-08 08:19:17
從 2009 年 9 月阿里云成立,愿景就是做運(yùn)算/分享數(shù)據(jù)的第一平臺(tái)。2010 年 4 月,伴隨阿里金融的貸款業(yè)務(wù)上線,ODPS 正式投入生產(chǎn)運(yùn)行,2012 年建立統(tǒng)一數(shù)據(jù)平臺(tái),2013 年具備超大規(guī)模海量數(shù)據(jù)處理能力,2014~2015 年大數(shù)據(jù)平臺(tái)開始日趨成熟,2016 年 MaxCompute 2.0 誕生,成立之初的愿景正在逐步實(shí)現(xiàn)。
關(guān)鍵性里程碑
2010.04 ODPS 正式投入生產(chǎn)運(yùn)行。阿里金融的貸款業(yè)務(wù)上線穩(wěn)定運(yùn)行。 2013.05 ODPS 公測(cè)。 2013.07 ODPS 正式提供商業(yè)化服務(wù),單集群規(guī)模 5K 臺(tái)服務(wù)器多級(jí)群能力。 2016.09 ODPS 正式更名為 MaxCompute,并推出 MaxCompute 2.0,實(shí)現(xiàn)高性能,新功能,富生態(tài)。
阿里云大學(xué)官網(wǎng)(阿里云大學(xué) - 官方網(wǎng)站,云生態(tài)下的創(chuàng)新人才工場(chǎng))
總結(jié)
以上是生活随笔為你收集整理的阿里云大数据计算服务MaxCompute(上篇)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java面试题全集(中)
- 下一篇: Matlab 检测直线并求解直线方程