日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

阿里大数据分析与应用(part4)--一站式大数据平台DataWorks

發布時間:2023/12/19 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 阿里大数据分析与应用(part4)--一站式大数据平台DataWorks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習筆記,僅供參考,有錯必糾


文章目錄

    • 一站式大數據平臺DataWorks
      • 大數據開發平臺-DataWorks
        • DataWorks 的主要功能及作用
      • DataWorks基本操作
        • 數據平臺開發流程
        • 數據處理
        • 本地數據導入
        • 數據節點開發
        • 任務調度配置(略)
        • DataWorks中的參數設置
        • 數據管理
        • 運維操作
        • 智能監控


一站式大數據平臺DataWorks

大數據開發平臺-DataWorks

DataWorks(數據工場,原大數據開發套件)是阿里云數加重要的PaaS平臺產品,它提供全面托管的工作流服務,一站式開發管理的界面,幫助企業專注于數據價值的挖掘和探索。

DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算(基于Flink)、機器學習PAI、圖計算服務Graph Compute和交互式分析服務等,并且支持用戶自定義接入計算和存儲服務。

DataWorks 的主要功能及作用

DataWorks 的主要功能有:

  • 全面托管調度
  • 數據轉化與同步
  • 可視化開發
  • 監控警告

使用DataWorks,可以對數據進行傳輸、轉換和集成等操作,從不同的數據存儲引入數據,并進行轉化和開發,最后將處理好的數據同步至其它數據系統。

DataWorks提供全鏈路智能大數據及AI開發和治理服務。通常情況下DataWorks和其他產品結合在一起尤其是MaxCompute搭建數據分析系統。

DataWorks基本操作

DataWorks 的使用從主賬號(組織管理員)創建項目和子賬號開始并賦權開始。不同角色的賬號操作模塊不同。

數據平臺開發流程

  • 數據產生:業務系統產生的結構化的數據,通常存儲的數據庫中,如MySQL、Oracle、RDS等類型。

  • 數據收集與存儲:利用MaxCompute的海量數據存儲與處理能力來分析這些已有的數據,首先需要將不同業務系統的數據同步至MaxCompute中。DataWorks提供數據集成服務,可將多種數據源類型數據按照預設的調度周期同步到MaxCompute中。

  • 數據分析與處理:對MaxCompute上的數據進行加工(MaxCompute SQL、MaxCompute MR)、分析與挖掘(數據分析、數據挖掘)等處理,從而發現其價值。

  • 數據提取:分析與處理后的結果數據,需同步導出至其他(業務)系統,供業務人員使用其分析的價值。

  • 數據展現和分享:最后可通過報表、地理信息系統等多種展現方式來展示與分享大數據分析、處理后的成果。

數據處理

本地數據導入

DataWorks支持以下兩種操作:

  • 將保存在本地的文本文件中的數據上傳到工作空間的表中。

  • 通過數據集成模塊將業務數據從多個不同的數據源導入到工作空間。

本地文本文件上傳的限制如下:

  • 文件類型:僅支持 .txt .csv 格式

  • 文件大小:不超過 10 M

  • 操作對象:導入分區表時,分區不允許為中文

數據節點開發

DataWorks中,ODPS SQL節點、Shell節點、PyODPS節點等各類節點的開發過程大同小異,根本區別在于個不同類型節點的數據處理實現。

任務調度配置(略)




DataWorks中的參數設置

參數類型設置方式適用類型參數編輯框示例
系統參數 bdp.system.bizdate 和bdp.system.cyctime在調度系統中運行時,無須在編輯框設置,可直接在代碼中引用 ${bdp.system.bizdate}和${bdp.system.cyctime}, 系統將自動替換這兩個參數的取值全部節點類型
自定義參數在代碼中引用${key1},?${key2}, 然后在“參數”編輯框以如下方式設置 "key1=value1 key2=value2 "除Shell外的其他節點類型常量參數:param1=“abc” param2=1234; 變量參數:param1=$[yyyymmdd], 結果將基于bdp.system.cyctime的取值計算
自定義參數在代碼中引用$1 $2 $3, 然后在“參數”編輯框以如下方式設置: “value1 value2 value3”Shell類型常量參數:“abc” 1234; 變量參數:$[yyyymmdd], 結果將基于bdp.system.cyctime的取值計算

數據管理

數據管理為用戶提供組織內全局數據視圖、用戶可以對組織內數據進行分權管理元數據信息詳情數據生命周期管理數據表/資源/函數權限管理審批等操作。

具體功能以及管理模塊權限如下圖所示:

功能模塊權限點組織管理員項目管理員開發
權限管理權限審批與收回
管理配置類目導航配置
數據管理自己創建的表刪除
數據管理自己創建的表類目設置
數據管理自己收藏的表查看
數據管理新建表
數據管理自己創建的表取消隱藏
數據管理自己創建的表結構變更
數據管理自己創建的表查看
數據管理自己申請的權限內容查看
數據管理自己創建的表隱藏
數據管理自己創建的表生命周期設置
數據管理非自己創建的表數據權限申請

運維操作

運維中心僅對開發、運維、項目管理員角色的人員開放:

**開發:**進行單個工作流/節點測試、補數據、暫停、重跑任務,查看任務運行日志等操作,還可配置監控報警 ;

運維:經常處理任務異常,運維任務包括:單個工作流/節點測試、補數據、暫停、重跑任務等操作。同時,還可進行批量修改工作流/節點屬性、批量殺任務及批量重跑、配置監控報警等干預性操作。

項目管理員:在運維中心模塊中擁有與運維人員同等的操作權限。

智能監控

智能監控模塊是DataWorks(數據工場)任務運行的監控及分析系統。根據監控規則和任務運行情況,智能監控決策是否報警、何時報警、如何報警以及給誰報警。智能監控會自動選擇最合理的報警時間,報警方式以及報警對象。

總結

以上是生活随笔為你收集整理的阿里大数据分析与应用(part4)--一站式大数据平台DataWorks的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。