當(dāng)前位置：首頁 >

在 Kubernetes 上弹性深度学习训练利器 - Elastic Training Operator

發(fā)布時間：2024/9/3 68 豆豆

生活随笔收集整理的這篇文章主要介紹了在 Kubernetes 上弹性深度学习训练利器 - Elastic Training Operator 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介：由于云計算在資源成本和彈性擴(kuò)容方面的天然優(yōu)勢，越來越多客戶愿意在云上構(gòu)建 AI 系統(tǒng)，而以容器、Kubernetes 為代表的云原生技術(shù)，已經(jīng)成為釋放云價值的最短路徑，在云上基于 Kubernetes 構(gòu)建 AI 平臺已經(jīng)成為趨勢。

作者 |?徐曉舟（蕭元）
來源|阿里巴巴云原生公眾號

背景

由于云計算在資源成本和彈性擴(kuò)容方面的天然優(yōu)勢，越來越多客戶愿意在云上構(gòu)建 AI 系統(tǒng)，而以容器、Kubernetes 為代表的云原生技術(shù)，已經(jīng)成為釋放云價值的最短路徑，在云上基于 Kubernetes 構(gòu)建 AI 平臺已經(jīng)成為趨勢。

當(dāng)面臨較復(fù)雜的模型訓(xùn)練或者數(shù)據(jù)量大時，單機(jī)的計算能力往往無法滿足算力要求。通過使用阿里的 AiACC 或者社區(qū)的 horovod?等分布式訓(xùn)練框架，僅需修改幾行代碼，就能將一個單機(jī)的訓(xùn)練任務(wù)擴(kuò)展為支持分布式的訓(xùn)練任務(wù)。在 Kubernetes 上常見的是 kubeflow 社區(qū)的 tf-operator 支持 Tensorflow PS 模式，或者 mpi-operator 支持 horovod 的 mpi allreduce 模式。

現(xiàn)狀

Kubernetes 和云計算提供敏捷性和伸縮性，我們可以通過 cluster-AutoScaler 等組件為訓(xùn)練任務(wù)設(shè)置彈性策略，利用 Kubernetes 的彈性能力，按需創(chuàng)建，減少 GPU 設(shè)備空轉(zhuǎn)。

但這種伸縮模式面對訓(xùn)練這種離線任務(wù)還是略有不足：

不支持容錯，當(dāng)部分 Worker 由于設(shè)備原因失敗，整個任務(wù)需要停止重來。
訓(xùn)練任務(wù)一般時間較長，占用算力大，任務(wù)缺少彈性能力。當(dāng)資源不足時，除非任務(wù)終止，無法按需為其他業(yè)務(wù)騰出資源。
訓(xùn)練任務(wù)時間較長，不支持 worker 動態(tài)配置，無法安全地使用搶占實(shí)例，發(fā)揮云上最大性價比

如何給訓(xùn)練任務(wù)賦予彈性能力，是提高性價比的關(guān)鍵路徑。近期 horovod 等分布式框架逐漸支持了 Elastic Training，即彈性訓(xùn)練能力。也就是允許一個訓(xùn)練任務(wù)在執(zhí)行的過程中動態(tài)的擴(kuò)容或者縮容訓(xùn)練 worker，從不會引起訓(xùn)練任務(wù)的中斷。需要在代碼中做少量修改適配，可參考：https://horovod.readthedocs.io/en/stable/elastic_include.html。

對 Elastic training 的實(shí)現(xiàn)原理感興趣可以看這篇 Elastic Horovod 設(shè)計文檔，本文不詳細(xì)介紹。

在 mpi-operator 中，參與訓(xùn)練的 Worker 都是作為靜態(tài)資源設(shè)計和維護(hù)，支持彈性訓(xùn)練模式后，給任務(wù)增加了靈活性，同時也給運(yùn)維層帶來了挑戰(zhàn)，例如：

必須通過 horovod 提供的 horovordrun 作為入口，horovod 中 launcher 通過 ssh 登陸 worker，需要打通 launcher 和 worker 之間的登陸隧道。
負(fù)責(zé)計算彈性的 Elastic Driver 模塊通過指定 discover_host 腳本獲取最新 worker 拓?fù)湫畔?#xff0c;從而拉起或停止 worker 實(shí)例。當(dāng) worker 變化時，首先要更新 discover_host 腳本的返回值。
在搶占或價格計算等場景中，有時需要指定 worker 縮容，K8s 原生的編排元語 deployment，statefulset 無法滿足指定縮容的場景。

解決方法

針對以上問題，我們設(shè)計開發(fā)了 et-operator，提供 TrainingJob CRD 描述訓(xùn)練任務(wù), ScaleOut 和 ScaleIn ?CRD 描述擴(kuò)容和縮容操作，通過它們的組合，使我們的訓(xùn)練任務(wù)更具有彈性。將這個方案開源，歡迎大家提需求、交流、吐槽。

開源方案地址：https://github.com/AliyunContainerService/et-operator

設(shè)計

TrainingJob Controller 主要有以下功能：

維護(hù) TrainingJob 的創(chuàng)建/刪除生命周期，以及子資源管理。
執(zhí)行擴(kuò)縮容操作。
容錯，當(dāng) worker 被驅(qū)逐，創(chuàng)建新的 worker 加入到訓(xùn)練中。

1. 資源創(chuàng)建

TrainingJob 子資源創(chuàng)建順序如下：

創(chuàng)建打通 ssh 所需的密鑰對，創(chuàng)建 secret。
創(chuàng)建 workers，包含 service 和 pod，掛載 secret 公鑰。
創(chuàng)建 configmap，包含 discover_host 腳本 , hostfile 文件。
創(chuàng)建 launcher，掛載 configmap。由于 hostfile 后續(xù)會隨著拓?fù)潢P(guān)系修改，所以 hostfile 單獨(dú)通過 initcontainer 從 configmap 拷貝到單獨(dú)目錄。

TrainingJob 相關(guān)資源：

TrainingJob CR 的配置分為 Lanucher 和 Worker。在 Launcher 中指定任務(wù)的鏡像和啟動執(zhí)行，默認(rèn) et-operator 會根據(jù) worker 分配情況，生成一個 hostfile 文件和 discover_host 腳本，discover_host 腳本掛載到 Launcher 的 /etc/edl/discover_hosts.sh 文件，在入口腳本的 horovodrun 執(zhí)行中通過 --host-discovery-script 參數(shù)指定。在 Worker 設(shè)置中指定 worker 的鏡像和 GPU 占用，并可以通過 maxReplicas / minReplicas 指定 workers 的副本數(shù)允許范圍。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata:name: elastic-trainingnamespace: default spec:cleanPodPolicy: RunningetReplicaSpecs:launcher:replicas: 1template:spec:containers:- command:- sh- -c- horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script/etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.pyimage: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticworker:maxReplicas: 9minReplicas: 1replicas: 2template:spec:containers:- image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticresources:limits:nvidia.com/gpu: "1"requests:nvidia.com/gpu: "1" status:currentWorkers:- elastic-training-worker-0- elastic-training-worker-1- elastic-training-worker-2- elastic-training-worker-3phase: SucceededreplicaStatuses:Launcher:active: 1succeeded: 1Worker:active: 4

2. Worker 擴(kuò)容 / 縮容

除了 TrainingJob 外，et-operator 同時支持 ScaleOut 和 ScaleIn 兩種 CRD，下發(fā)訓(xùn)練任務(wù)擴(kuò)容和縮容操作。

當(dāng)下發(fā)一個 ScaleOut CR，ScaleOutController 觸發(fā) Reconcile，這里工作很簡單，根據(jù) ScaleOut CR 中的 Selector 字段，找到 Scaler 對應(yīng)的 TrainingJob，設(shè)置到 CR 的 OwnerReferences 上。

以一個 ScaleOut 操作舉例：

- apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:creationTimestamp: "2020-11-04T13:54:26Zname: scaleout-ptfnknamespace: defaultownerReferences:- apiVersion: kai.alibabacloud.com/v1alpha1blockOwnerDeletion: truecontroller: truekind: TrainingJobname: elastic-training // 指向擴(kuò)容對象TrainingJobuid: 075b9c4a-22f9-40ce-83c7-656b329a2b9espec:selector:name: elastic-trainingtoAdd:count: 2

TrainingJobController 中監(jiān)聽到屬于 TrainingJob ?的 ScaleOut CR 有更新，觸發(fā) TrainingJob 的 Reconcile，遍歷過濾 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut，根據(jù)創(chuàng)建時間和狀態(tài)時間決定執(zhí)行的擴(kuò)容或者縮容。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata:name: elastic-trainingnamespace: default spec: // ...... Launcher and Worker spec status:currentScaler: ScaleIn:default/scaleout-ptfnkphase: ScalingcurrentWorkers:- elastic-training-worker-0- elastic-training-worker-1

ScaleOut 任務(wù) CR：

ScaleIn 任務(wù) CR：

詳細(xì)工作過程：

運(yùn)行

1. 安裝 ET-Operator

mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService cd $(go env GOPATH)/src/github.com/aliyunContainerService git clone https://http://github.com/aliyunContainerService/et-operator cd et-operator kubectl create -f deploy/all_in_one.yaml

檢測 crd 的安裝：

# kubectl get crd NAME CREATED AT scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z

檢測 controller 的運(yùn)行狀態(tài)，默認(rèn)安裝在 kube-ai 中：

# kubectl -n kube-ai get po NAME READY STATUS RESTARTS AGE et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s

2. 運(yùn)行 TrainingJob

運(yùn)行事先已準(zhǔn)備好的示例：

kubectl apply -f examples/training_job.yaml

檢測運(yùn)行狀態(tài)：

# kubectl get trainingjob NAME PHASE AGE elastic-training Running 77s# kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 7s elastic-training-worker-0 1/1 Running 0 10s elastic-training-worker-1 1/1 Running 0 9s

3. 縮容訓(xùn)練任務(wù) Worker

執(zhí)行縮容時，可以通過 ScaleIn CR 中的 spec.toDelete.count ?或 spec.toDelete.podNames ?字段指定縮容的 worker。

通過 count 配置縮容的數(shù)量，則通過 index 計算由高到低縮容 Worker。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata:name: scalein-workers spec:selector:name: elastic-trainingtoDelete:count: 1

如果想要縮容特定的 Worker，可以配置 podNames：

apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata:name: scalein-workers spec:selector:name: elastic-trainingtoDelete:podNames:- elastic-training-worker-1

運(yùn)行一個縮容示例，指定數(shù)量縮容 1 個 worker：

kubectl create -f examples/scale_in_count.yaml

檢測縮容執(zhí)行狀態(tài)和訓(xùn)練任務(wù)：

# kubectl get scalein NAME PHASE AGE scalein-sample-t8jxd ScaleSucceeded 11s# kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 47s elastic-training-worker-0 1/1 Running 0 50s

4. 擴(kuò)容訓(xùn)練任務(wù)

在 ScaleOut CR 中，通過 spec.toAdd.count 字段指定擴(kuò)容的 worker 數(shù)：

apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:name: elastic-training-scaleout-9dtmwnamespace: defaultspec:selector:name: elastic-trainingtimeout: 300toAdd:count: 2

運(yùn)行示例：

kubectl create -f examples/scale_out.yaml

檢測縮容執(zhí)行狀態(tài)和訓(xùn)練任務(wù)：

kubectl get scaleout NAME PHASE AGE elastic-training-scaleout-9dtmw ScaleSucceeded 30s kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 2m5s elastic-training-worker-0 1/1 Running 0 2m8s elastic-training-worker-1 1/1 Running 0 40s elastic-training-worker-2 1/1 Running 0 40s

總結(jié)

ET-Operator 提供一組訓(xùn)練和擴(kuò)縮容 CRD 和 Controller，讓我們在 Kubernetes 上方便地運(yùn)行彈性分布式訓(xùn)練，支持下發(fā)分布式訓(xùn)練任務(wù)，并通過和分布式框架的集成聯(lián)動，在訓(xùn)練任務(wù)運(yùn)行過程中動態(tài)地擴(kuò)容和縮容參與運(yùn)算的 Workers。使我們的訓(xùn)練任務(wù)具有彈性能力，結(jié)合搶占實(shí)例，能夠更好的利用云上的資源彈性和性價比優(yōu)勢。

原文鏈接：https://developer.aliyun.com/article/781938?

版權(quán)聲明：本文內(nèi)容由阿里云實(shí)名注冊用戶自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，阿里云開發(fā)者社區(qū)不擁有其著作權(quán)，亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，填寫侵權(quán)投訴表單進(jìn)行舉報，一經(jīng)查實(shí)，本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

總結(jié)

以上是生活随笔為你收集整理的在 Kubernetes 上弹性深度学习训练利器 - Elastic Training Operator的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：新内容，新交互”全球视频云创新挑战
下一篇： NVIDIA 显卡与 CUDA 在深度学

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

在 Kubernetes 上弹性深度学习训练利器 - Elastic Training Operator

背景

現(xiàn)狀

解決方法

設(shè)計

1. 資源創(chuàng)建

2. Worker 擴(kuò)容 / 縮容

運(yùn)行

1. 安裝 ET-Operator

2. 運(yùn)行 TrainingJob

3. 縮容訓(xùn)練任務(wù) Worker

4. 擴(kuò)容訓(xùn)練任務(wù)

總結(jié)

總結(jié)