任务不再等待!玩转DataWorks资源组
引言
DataWorks提供了三種資源組的能力:獨享資源組、自定義資源組和默認資源組,很多開發者在使用資源組時經常會碰到各類情況,到時候任務運行失敗或者延遲,例如:
1. 正在使用默認資源組,任務經常要等待
2.購買錯了資源組類型(獨享數據集成資源組與獨享調度資源組),使用不了
3.購買錯了地域(杭州開通DataWorks購買了北京的資源組)
4.沒買錯資源組類型,也沒買錯地域,當天還是用不了
通過本篇文章,為您介紹三種資源組的使用場景、使用方式等;下圖描述了整個任務在運行過程中不同類型使用的資源組的流程;
? ? 調度有三種資源組:默認、獨享、自定義;DataWorks中的數據集成也有同樣的三種資源組:默認、獨享、自定義;數據集成的同步資源管理復用調度系統資源管理系統,在使用DataWorks的時候,如果需要使用數據集成任務,那么需要區分開調度和數據集成2種資源組的概念;
默認資源組
? ? 默認資源組是DataWorks在租戶開始使用時候就給每個租戶頒發的資源組了,租戶內所有項目共享,不需要任何配置、操作就可以運行任務;但是該默認資源組需要說明節點:
-
使用場景:
- 默認資源組是在租戶購買了DataWorks時候就會默認創建的,可以支持用戶在頁面進行數據開發、運行測試等能力,目前是免費支持的;
- 任務量相對較少,或者相對來說對任務時效性要求不高的場景
-
提供的能力
-
支持所有的任務類型,但不支持:
- 需要公網訪問外部服務,且需要白名單的不支持;
- 需要訪問VPC的任務不支持
- 需要訪問公網的也不建議使用,建議切換其他資源組使用;
- 任務安全沙箱的能力
-
-
注意事項
- 默認資源組最大調度資源是有固定分配的默認大小的;所有租戶下項目共享,會存在項目之間的資源搶占,不能100%保障任務按時獲得資源運行;
- 默認資源組是在平臺的公共集群下的,所有租戶都共享該集群資源,所以在高峰期會存在租戶之間的資源搶占,不能100%保障任務按時獲得資源運行;
-
費用
- 按量付費(實例費用、同步進程費用等)
獨享資源組
? ? 目前DataWorks的獨享資源組提供了2種:獨享調度資源組和獨享數據集成資源組,在此處為了更好的理解為什么需要2種資源組的方式,可以將獨享數據集成資源組理解為MaxCompute的計算資源概念,因為數據集成隸屬于DataWorks產品內,所以在同步資源是跟調度資源在一起購買的;可以參考引言中的圖;
一、獨享調度資源組
(1)信息說明
- 版本要求:無
-
類型:
- 獨享調度資源組
- 獨享數據集成資源組
-
使用場景
-
推薦只要生產任務都使用獨享資源組
- 資源可隨時調配
- 任務產出可得到保障
- 任務量大、且對任務時效性要求高的場景必須使用獨享
- 需要訪問公網地址、訪問VPC地址,請使用獨享
- 訪問目的端服務,需要配置白名單的場景,請使用獨享
- 自己VPC與IDC已經打通,任務需要訪問IDC的,可使用獨享解決網絡問題;
-
-
注意事項
- 獨享目前不能支持跨租戶節點、機器學習任務;其余支持
- 購買獨享資源組的時候,務必要注意購買與自己VPC在同一個可用區
-
切換任務資源組的時候:
- 注意每種任務類型都需要測試驗證:網絡是否已經打通
-
費用:
- 調度:相對默認資源組,如果實例超過500個,獨享資源會相對便宜很多;不收取實例費用,僅資源費用;
(2)如何修改任務運行到獨享調度資源組
特別特別注意:
1、在運維中心任務修改資源組周期任務是需要第二天才會生效,及時生效可以通過測試或者補數據運行即可;
2、__一定要先單個測試在批量修改,__一定要先單個測試在批量修改,__一定要先單個測試在批量修改
3、如果有網絡打通的,優先將網絡打通,可以在測試的時候驗證出來的;
詳細操作步驟:
-
step1:購買獨享資源組
- 說明:一般按照實際的任務并發數來購買對應的資源數量,可以參考:https://help.aliyun.com/document_detail/125776.html?spm=a2c4g.11186623.6.573.20a87b75cx5tkl?里面的場景三
- 購買指引:https://help.aliyun.com/document_detail/121526.html?spm=a2c4g.11174283.6.641.4b1c2b65Y7CSE8
- 登錄管控臺:目前需要有主賬戶權限或者已經授權過的子賬戶
- 打開頁面,點擊“新增獨享資源組”
- 新增頁面,選擇“獨享調度資源組”:
- 點擊購買鏈接,去購買:此處特別建議:至少購買2臺(做容災保障,Failover的能力)
- 購買完畢后,就可以返回在控制臺剛才的創建頁面,選擇訂單號了:
- 然后選擇可用區:特別特別注意:可用區需要跟您的VPC在一個可用區:(就是你的任務是否需要訪問VPC地址,比如訪問ads、adb等,就需要跟次VPC在一個可用區)如果沒有可用,提工單!
- step2:購買成功后,大概需要等待5分鐘左右,資源組即可創建完畢;【需要點擊刷新按鈕,不會主動刷新】
- step3:將資源組分配到需要的項目中使用,點擊:“修改歸屬空間”,點擊確定接口
- step4:指定完畢項目空間后,就可以切換到運維中心去修改任務資源組了;
- step5:打開運維中心,切換到指定項目下,比如此處上述資源組分配到了monitor_prj項目中,到該項目的到周期任務中,選擇需要修改的,點擊下方有個更多里面有個修改資源組;
特別特別注意:虛節點、工作流、機器學習等任務類型不要選擇上,因為這些不支持資源組修改;
??->?
- step6:修改完畢資源組后,可以點擊任務詳情,查看屬性,就可以看到任務的資源組信息:
-
step7:測試驗收:
- 任務資源組修改完畢后,可以進行測試、補數據運行,任務就會運行到當前的資源組上,可以通過查看日志判斷任務是否已經在獨享資源組上:
?->?
- 任務運行成功,在看下日志了,是否都OK的,就說明該任務運行到獨享資源組上沒有什么問題;
-
step8:批量修改同一種任務類型的任務切換到該資源組上:
- 過濾節點類型
- 全選
以上,就完成了將任務遷移到獨享資源組運行的操作了;
二、獨享數據集成資源組
(一)信息說明
- 版本要求:無
-
使用場景
-
推薦只要生產任務都使用獨享數據集成資源組
- 資源可隨時調配
- 任務產出可得到保障
- 任務量大、且對任務時效性要求高的場景必須使用獨享
- 需要訪問公網地址、訪問VPC地址,請使用獨享
- 訪問目的端服務,需要配置白名單的場景,請使用獨享
- 自己VPC與IDC已經打通,任務需要訪問IDC的,可使用獨享解決網絡問題;
-
-
注意事項
- 如果數據源是經典網絡的,不可遷移到獨享,因為獨享是VPC的
- 購買獨享資源組的時候,務必要注意購買與自己VPC在同一個可用區
(二)如何修改任務運行到獨享數據集成資源組
寫在最前面:
1、一定要先單個測試在批量修改,一定要先單個測試在批量修改,一定要先單個測試在批量修改
2、如果有網絡打通的,優先將網絡打通,可以在測試的時候驗證出來的;
3、獨享數據集成資源組是在數據開發頁面修改提交,發布后是及時生效的;
詳細操作步驟:
- step1:購買創建、分配流程:同獨享調度資源組是一致的,注意一點就是規格問題:簡單理解多大內存就允許多大并發
-
step2:修改任務到獨享數據集成資源組,登錄到對應項目空間的數據開發頁面,找到你的同步任務,打開編輯:
- 通過向導模式配置任務時,在通道控制?>?任務資源組下拉框中,選擇相應的獨享數據集成資源。
- 通過腳本模式配置任務時,單擊右上角的配置任務資源組,在任務資源組下拉框中,選擇相應的獨享數據集成資源。
- step3:任務資源組修改完畢后,保存,提交;發布后,一樣的,在運維中心進行測試或者補數據運行,就可以驗證是否測試通過
- step4:目前數據集成資源組的修改無法支持批量修改,只能按照上述方法,逐一任務修改!
三、專有網絡綁定
-
使用場景
- 當配置的任務需要訪問自己VPC內的地址的時候,就需要做VPC之間的網絡打通,比如需要訪問adb的vpc,那就必須要做這一步
- 如果你的VPC跟你的IDC已經專線打通,那也可以通過此功能將獨享與你的idc打通,可以支持任務運行,不過此操作需要平臺支持
-
前提條件
- 創建的獨享資源組與自己VPC在一個可用區
- 如果不在一個可用區:建議重新購買創建;若無法重新創建則只能提工單需求!
-
操作步驟
- step1:打開控制資源組列表,找到獨享資源組->專有網絡綁定
?
- step2:點擊后,需要授權使用,點擊授權即可
- step3:選擇需要綁定的資源組,點擊 新增綁定:
-
step4:填寫對應的自己VPC下的信息:
- 特別注意:選擇VPC、交換機、安全組都是你目的端要訪問的云產品實例所在的
- 如果沒有交換機或者安全組,可點擊創建(注意創建的時候都要在該可用區下)
-
step5:如果你的云產品實例需要配置白名單的話:綁定成功后,回到獨享資源組列表,點擊 查看信息:
- 會有eip、網段,需要將此2個IP和ip段作為白名單列表添加到你對應的云產品實例的IP白名單列表中;
- 同時,需要將自己云產品實例所在的交換機網段(內網網段)也添加到自己的白名單IP列表中
- 特別特別注意:如果您的MaxCompute開啟的IP白名單,任務切換到了獨享資源組后,發現白名單問題,請提工單,由平臺方提供IP列表添加
四、運維助手
-
使用場景
- 解決一些資源包沒有安裝的問題,用戶可以自己操作安裝;比如python的三方包
- 一些特殊腳本固定使用
-
注意點
- 固定安裝目錄
- 使用方式:https://help.aliyun.com/document_detail/144824.html?spm=a2c4g.11186623.6.667.43507e023eJc8C
自定義資源組
-
版本要求:
- 自定義調度資源組:企業版及以上,需要提工單白名單開放
- 自定義數據集成資源組:專業版及以上
-
解決的場景:
- 網絡問題:做數據同步需要訪問自己IDC的
- 環境因數:比如依賴了python高版本、jdk環境等等,可以使用一臺環境滿足的ecs作為自定義資源
- 搬站:一些客戶本地以及有工作流任務開發在運行了,期望可以減少搬站遷移的工作量,可以還是將任務直接調度到自己的服務器上,減少代碼腳本的遷移;
-
注意事項
- 只能支持數據集成任務和shell任務
-
操作使用:
- 自定義數據集成資源組,參考此處:https://help.aliyun.com/document_detail/136934.html?spm=a2c4g.11186623.6.719.8b745b35mv5nrp
-
自定義調度資源組:
- step1:提工單申請,企業版升級;
??
- step4: 服務添加完畢后,回到自定義資源組頁面,刷新按鈕,點擊 服務器初始化,按照初始化流程,登錄到ECS操作 - step5:服務器操作完畢后,可以到頁面等待10分鐘,觀察服務器狀態正常即可;-
修改任務到自定義資源組流程跟獨享一樣
- 調度資源組:運維中心修改
- 數據集成:編輯開發頁面修改,需要提交發布
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的任务不再等待!玩转DataWorks资源组的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 田亮:坚信大数据的变革力量
- 下一篇: 使用Istio进行多集群部署管理(2):