阿里大数据分析与应用(part4)--一站式大数据平台DataWorks
學習筆記,僅供參考,有錯必糾
文章目錄
- 一站式大數據平臺DataWorks
- 大數據開發平臺-DataWorks
- DataWorks 的主要功能及作用
- DataWorks基本操作
- 數據平臺開發流程
- 數據處理
- 本地數據導入
- 數據節點開發
- 任務調度配置(略)
- DataWorks中的參數設置
- 數據管理
- 運維操作
- 智能監控
一站式大數據平臺DataWorks
大數據開發平臺-DataWorks
DataWorks(數據工場,原大數據開發套件)是阿里云數加重要的PaaS平臺產品,它提供全面托管的工作流服務,一站式開發管理的界面,幫助企業專注于數據價值的挖掘和探索。
DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、圖計算服務Graph Compute和交互式分析服務等,并且支持用戶自定義接入計算和存儲服務。
DataWorks 的主要功能及作用
DataWorks 的主要功能有:
- 全面托管調度
- 數據轉化與同步
- 可視化開發
- 監控警告
使用DataWorks,可以對數據進行傳輸、轉換和集成等操作,從不同的數據存儲引入數據,并進行轉化和開發,最后將處理好的數據同步至其它數據系統。
DataWorks提供全鏈路智能大數據及AI開發和治理服務。通常情況下DataWorks和其他產品結合在一起尤其是MaxCompute搭建數據分析系統。
DataWorks基本操作
DataWorks 的使用從主賬號(組織管理員)創建項目和子賬號開始并賦權開始。不同角色的賬號操作模塊不同。
數據平臺開發流程
-
數據產生:業務系統產生的結構化的數據,通常存儲的數據庫中,如MySQL、Oracle、RDS等類型。
-
數據收集與存儲:利用MaxCompute的海量數據存儲與處理能力來分析這些已有的數據,首先需要將不同業務系統的數據同步至MaxCompute中。DataWorks提供數據集成服務,可將多種數據源類型數據按照預設的調度周期同步到MaxCompute中。
-
數據分析與處理:對MaxCompute上的數據進行加工(MaxCompute SQL、MaxCompute MR)、分析與挖掘(數據分析、數據挖掘)等處理,從而發現其價值。
-
數據提取:分析與處理后的結果數據,需同步導出至其他(業務)系統,供業務人員使用其分析的價值。
-
數據展現和分享:最后可通過報表、地理信息系統等多種展現方式來展示與分享大數據分析、處理后的成果。
數據處理
本地數據導入
DataWorks支持以下兩種操作:
-
將保存在本地的文本文件中的數據上傳到工作空間的表中。
-
通過數據集成模塊將業務數據從多個不同的數據源導入到工作空間。
本地文本文件上傳的限制如下:
-
文件類型:僅支持 .txt 和 .csv 格式
-
文件大小:不超過 10 M
-
操作對象:導入分區表時,分區不允許為中文
數據節點開發
DataWorks中,ODPS SQL節點、Shell節點、PyODPS節點等各類節點的開發過程大同小異,根本區別在于個不同類型節點的數據處理實現。
任務調度配置(略)
DataWorks中的參數設置
| 系統參數 bdp.system.bizdate 和bdp.system.cyctime | 在調度系統中運行時,無須在編輯框設置,可直接在代碼中引用 ${bdp.system.bizdate}和${bdp.system.cyctime}, 系統將自動替換這兩個參數的取值 | 全部節點類型 | 無 |
| 自定義參數 | 在代碼中引用${key1},?${key2}, 然后在“參數”編輯框以如下方式設置 "key1=value1 key2=value2 " | 除Shell外的其他節點類型 | 常量參數:param1=“abc” param2=1234; 變量參數:param1=$[yyyymmdd], 結果將基于bdp.system.cyctime的取值計算 |
| 自定義參數 | 在代碼中引用$1 $2 $3, 然后在“參數”編輯框以如下方式設置: “value1 value2 value3” | Shell類型 | 常量參數:“abc” 1234; 變量參數:$[yyyymmdd], 結果將基于bdp.system.cyctime的取值計算 |
數據管理
數據管理為用戶提供組織內全局數據視圖、用戶可以對組織內數據進行分權管理、元數據信息詳情、數據生命周期管理、數據表/資源/函數權限管理審批等操作。
具體功能以及管理模塊權限如下圖所示:
| 權限管理 | 權限審批與收回 | — | √ | — |
| 管理配置 | 類目導航配置 | √ | √ | √ |
| 數據管理 | 自己創建的表刪除 | √ | √ | √ |
| 數據管理 | 自己創建的表類目設置 | √ | √ | √ |
| 數據管理 | 自己收藏的表查看 | √ | √ | √ |
| 數據管理 | 新建表 | √ | √ | √ |
| 數據管理 | 自己創建的表取消隱藏 | √ | √ | √ |
| 數據管理 | 自己創建的表結構變更 | √ | √ | √ |
| 數據管理 | 自己創建的表查看 | √ | √ | √ |
| 數據管理 | 自己申請的權限內容查看 | √ | √ | √ |
| 數據管理 | 自己創建的表隱藏 | √ | √ | √ |
| 數據管理 | 自己創建的表生命周期設置 | √ | √ | √ |
| 數據管理 | 非自己創建的表數據權限申請 | √ | √ | √ |
運維操作
運維中心僅對開發、運維、項目管理員角色的人員開放:
**開發:**進行單個工作流/節點測試、補數據、暫停、重跑任務,查看任務運行日志等操作,還可配置監控報警 ;
運維:經常處理任務異常,運維任務包括:單個工作流/節點測試、補數據、暫停、重跑任務等操作。同時,還可進行批量修改工作流/節點屬性、批量殺任務及批量重跑、配置監控報警等干預性操作。
項目管理員:在運維中心模塊中擁有與運維人員同等的操作權限。
智能監控
智能監控模塊是DataWorks(數據工場)任務運行的監控及分析系統。根據監控規則和任務運行情況,智能監控決策是否報警、何時報警、如何報警以及給誰報警。智能監控會自動選擇最合理的報警時間,報警方式以及報警對象。
總結
以上是生活随笔為你收集整理的阿里大数据分析与应用(part4)--一站式大数据平台DataWorks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TP-Link TL-WR885N V1
- 下一篇: 阿里大数据分析与应用(part5)--Q