日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

發布時間:2024/8/23 windows 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要: MaxCompute大家都不陌生,之前產品名稱叫ODPS,之后隨國際化而更名。從支持阿里集團內部99%數據業務到計算能力對外輸出,幫助政府、互聯網公司、金融等進行大數據項目服務,使得數據變現。很多開發者都會把MaxCompute和開源社區Hadoop、hive進行比較,此處不做過多評論,各有優勢。

點擊查看原文

MaxCompute大家都不陌生,之前產品名稱叫ODPS,之后隨國際化而更名。從支持阿里集團內部99%數據業務到計算能力對外輸出,幫助政府、互聯網公司、金融等進行大數據項目服務,使得數據變現。很多開發者都會把MaxCompute和開源社區Hadoop、hive進行比較,此處不做過多評論,各有優勢。但是不得不說MaxCompute這幾年在生態上向前走了一大步。

關于 MaxCompute2.0 對開源系統的支持與融合 的整體介紹及團隊規劃,詳見文檔。

最近,我也針對MaxCompute在生態融合上也進行了一些研究和拜讀,因為現在資料還比較零散,就把自己在過程中遇到的好材料統一為大家梳理如下,包括SDK、JDBC等。
MaxCompute SDK
首先我們先來看SDK,想必很多有能力的互聯網公司都有大量的個性化需求,都會對SDK/API有一些需求,比如小黃車這樣的體量大的客戶,就基于MaxCompute SDK做了大量的應用。那具體SDK包括Java、Python、R以及PHP(PHP為社區提供,并非阿里云官方出品,但都可以滿足大部分需求)。

Java SDK:MaxCompute團隊官方開發并維護,具體可以詳見:官網文檔 和 SDK Java DOC
Python SDK:MaxCompute團隊官方開發并維護的PyODPS,具體可以詳見:官網文檔 和 云棲社區博客。

更大強大的功能,大家可以期待下團隊將在北京云棲大會對外正式公測的python UDF,這將大大的提高python開發者對MaxCompute的開發效率和功能。
R SDK:RODPS也較大滿足開發者使用R做數據分析的需求,具體安裝及使用可以詳見 云棲社區博文

PHP SDK:PHP SDK并非MaxCompute團隊官方出品,由社區招募完成開發工作,具體有PHP需求的同學也可以參考PHP SDK文檔,可以滿足PHP開發的大部分需求。
Ruby SDK:同PHP SDK由開源愛好者貢獻,具體詳見:https://github.com/aliyun-beta/aliyun-odps-ruby-sdk

MaxCompute JDBC 2.2 發布說明
對接已有軟件并提供標準JDBC編程接口,MaxCompute JDBC 2.2正式版已于2017年2月24日正式發布。
github地址:https://github.com/aliyun/aliyun-odps-jdbc/releases/tag/v2.2
V2.2詳細說明:https://yq.aliyun.com/articles/72791
V2.0詳細說明:https://yq.aliyun.com/articles/59443
通過Apache Zeppelin 快速實現數據可視化
借力QlikView玩轉數據分析

Hive Proxy
提供Hive Thrift協議兼容接口,對接Hive社區已有的工具。Hive Proxy 部署在客戶端,將 Hive 的 thrift 請求轉換成 MaxCompute 的 Restful API 請求,可以用來直接對接諸如 Tableau、Qlik 這樣不直接支持 JDBC 的 BI 工具,或者 HPL 這樣的 Hive 組件,詳見 博文。

示例1:復用Hive ODBC實現Tableau到MaxCompute的連通
示例2:復用Hive JDBC實現Beeline到MaxCompute的連通
具體詳見:https://yq.aliyun.com/articles/61262

ETL tool-數據上云工具

Kettle:[ETL實踐指南]基于Kettle的MaxCompute插件實現數據上云
sqoop:MaxCompute有一款是基于社區sqoop 1.4.6版本開發的Sqoop,增加了對MaxCompute的支持,可以支持將數據從Mysql等關系數據庫和MaxCompute的導入和導出,也支持從Hdfs/Hive導入數據到MaxCompute的表中。 具體用法可以參考:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop
OGG:主要適用于源庫為Oracle,可以通過其采集實時更新數據到DataHub中。 通過OGG將數據采集至MaxCompute/基于OGG Datahub插件將Oracle數據同步上云
Fluentd:該插件遵守Fluentd輸出插件開發規范,安裝方便,可以很方便地將采集得到的數據寫到DataHub。通過Fluentd將數據采集至MaxCompute
Flume:Flume插件下載并安裝地址,基于Apache Flume Datahub插件將日志數據同步上云,點擊進入
Logstash:Logstash是一種分布式日志收集框架,非常簡潔強大,經常與ElasticSearch,Kibana配置,組成著名的ELK技術棧,非常適合用來做日志數據的分析。 通過Logstash將日志數據采集至MaxCompute。

關于Logstash將日志采集MaxCompute,然后做數據分析有詳細step by step 文檔,點擊進入。

總結

以上是生活随笔為你收集整理的【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。