日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator

發布時間:2025/3/20 pytorch 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者 |?徐曉舟(蕭元)
來源|阿里巴巴云原生公眾號

背景

由于云計算在資源成本和彈性擴容方面的天然優勢,越來越多客戶愿意在云上構建 AI 系統,而以容器、Kubernetes 為代表的云原生技術,已經成為釋放云價值的最短路徑, 在云上基于 Kubernetes 構建 AI 平臺已經成為趨勢。

當面臨較復雜的模型訓練或者數據量大時,單機的計算能力往往無法滿足算力要求。通過使用阿里的 AiACC 或者社區的 horovod?等分布式訓練框架,僅需修改幾行代碼,就能將一個單機的訓練任務擴展為支持分布式的訓練任務。在 Kubernetes 上常見的是 kubeflow 社區的 tf-operator 支持 Tensorflow PS 模式,或者 mpi-operator 支持 horovod 的 mpi allreduce 模式。

現狀

Kubernetes 和云計算提供敏捷性和伸縮性,我們可以通過 cluster-AutoScaler 等組件為訓練任務設置彈性策略,利用 Kubernetes 的彈性能力,按需創建,減少 GPU 設備空轉。

但這種伸縮模式面對訓練這種離線任務還是略有不足:

  • 不支持容錯,當部分 Worker 由于設備原因失敗,整個任務需要停止重來。
  • 訓練任務一般時間較長,占用算力大,任務缺少彈性能力。當資源不足時,除非任務終止,無法按需為其他業務騰出資源。
  • 訓練任務時間較長,不支持 worker 動態配置, 無法安全地使用搶占實例,發揮云上最大性價比

如何給訓練任務賦予彈性能力,是提高性價比的關鍵路徑。近期 horovod 等分布式框架逐漸支持了 Elastic Training,即彈性訓練能力。也就是允許一個訓練任務在執行的過程中動態的擴容或者縮容訓練 worker, 從不會引起訓練任務的中斷。需要在代碼中做少量修改適配,可參考:https://horovod.readthedocs.io/en/stable/elastic_include.html。

對 Elastic training 的實現原理感興趣可以看這篇 Elastic Horovod 設計文檔, 本文不詳細介紹。

在 mpi-operator 中,參與訓練的 Worker 都是作為靜態資源設計和維護,支持彈性訓練模式后,給任務增加了靈活性,同時也給運維層帶來了挑戰,例如:

  • 必須通過 horovod 提供的 horovordrun 作為入口,horovod 中 launcher 通過 ssh 登陸 worker,需要打通 launcher 和 worker 之間的登陸隧道。

  • 負責計算彈性的 Elastic Driver 模塊通過指定 discover_host 腳本獲取最新 worker 拓撲信息,從而拉起或停止 worker 實例。當 worker 變化時,首先要更新 discover_host 腳本的返回值。

  • 在搶占或價格計算等場景中,有時需要指定 worker 縮容,K8s 原生的編排元語 deployment,statefulset 無法滿足指定縮容的場景。

解決方法

針對以上問題,我們設計開發了 et-operator,提供 TrainingJob CRD 描述訓練任務, ScaleOut 和 ScaleIn ?CRD 描述擴容和縮容操作, 通過它們的組合,使我們的訓練任務更具有彈性。將這個方案開源,歡迎大家提需求、交流、吐槽。

開源方案地址:https://github.com/AliyunContainerService/et-operator

設計

TrainingJob Controller 主要有以下功能:

  • 維護 TrainingJob 的創建/刪除生命周期,以及子資源管理。
  • 執行擴縮容操作。
  • 容錯,當 worker 被驅逐,創建新的 worker 加入到訓練中。

1. 資源創建

TrainingJob 子資源創建順序如下:

  • 創建打通 ssh 所需的密鑰對, 創建 secret。
  • 創建 workers,包含 service 和 pod,掛載 secret 公鑰。
  • 創建 configmap, 包含 discover_host 腳本 , hostfile 文件。
  • 創建 launcher,掛載 configmap。由于 hostfile 后續會隨著拓撲關系修改,所以 hostfile 單獨通過 initcontainer 從 configmap 拷貝到單獨目錄。

TrainingJob 相關資源:

TrainingJob CR 的配置分為 Lanucher 和 Worker。在 Launcher 中指定任務的鏡像和啟動執行, 默認 et-operator 會根據 worker 分配情況,生成一個 hostfile 文件和 discover_host 腳本,discover_host 腳本掛載到 Launcher 的 /etc/edl/discover_hosts.sh 文件, 在入口腳本的 horovodrun 執行中通過 --host-discovery-script 參數指定。在 Worker 設置中指定 worker 的鏡像和 GPU 占用 ,并可以通過 maxReplicas / minReplicas 指定 workers 的副本數允許范圍。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata:name: elastic-trainingnamespace: default spec:cleanPodPolicy: RunningetReplicaSpecs:launcher:replicas: 1template:spec:containers:- command:- sh- -c- horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script/etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.pyimage: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticworker:maxReplicas: 9minReplicas: 1replicas: 2template:spec:containers:- image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpuimagePullPolicy: Alwaysname: mnist-elasticresources:limits:nvidia.com/gpu: "1"requests:nvidia.com/gpu: "1" status:currentWorkers:- elastic-training-worker-0- elastic-training-worker-1- elastic-training-worker-2- elastic-training-worker-3phase: SucceededreplicaStatuses:Launcher:active: 1succeeded: 1Worker:active: 4

2. Worker 擴容 / 縮容

除了 TrainingJob 外,et-operator 同時支持 ScaleOut 和 ScaleIn 兩種 CRD,下發訓練任務擴容和縮容操作。

當下發一個 ScaleOut CR,ScaleOutController 觸發 Reconcile, 這里工作很簡單,根據 ScaleOut CR 中的 Selector 字段,找到 Scaler 對應的 TrainingJob,設置到 CR 的 OwnerReferences 上。

以一個 ScaleOut 操作舉例:

- apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:creationTimestamp: "2020-11-04T13:54:26Zname: scaleout-ptfnknamespace: defaultownerReferences:- apiVersion: kai.alibabacloud.com/v1alpha1blockOwnerDeletion: truecontroller: truekind: TrainingJobname: elastic-training // 指向擴容對象TrainingJobuid: 075b9c4a-22f9-40ce-83c7-656b329a2b9espec:selector:name: elastic-trainingtoAdd:count: 2

TrainingJobController 中監聽到屬于 TrainingJob ?的 ScaleOut CR 有更新, 觸發 TrainingJob 的 Reconcile,遍歷過濾 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut, 根據創建時間和狀態時間決定執行的擴容或者縮容。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata:name: elastic-trainingnamespace: default spec: // ...... Launcher and Worker spec status:currentScaler: ScaleIn:default/scaleout-ptfnkphase: ScalingcurrentWorkers:- elastic-training-worker-0- elastic-training-worker-1

ScaleOut 任務 CR:

ScaleIn 任務 CR:

詳細工作過程:

運行

1. 安裝 ET-Operator

mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService cd $(go env GOPATH)/src/github.com/aliyunContainerService git clone https://http://github.com/aliyunContainerService/et-operator cd et-operator kubectl create -f deploy/all_in_one.yaml

檢測 crd 的安裝:

# kubectl get crd NAME CREATED AT scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z

檢測 controller 的運行狀態,默認安裝在 kube-ai 中:

# kubectl -n kube-ai get po NAME READY STATUS RESTARTS AGE et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s

2. 運行 TrainingJob

運行事先已準備好的示例:

kubectl apply -f examples/training_job.yaml

檢測運行狀態:

# kubectl get trainingjob NAME PHASE AGE elastic-training Running 77s# kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 7s elastic-training-worker-0 1/1 Running 0 10s elastic-training-worker-1 1/1 Running 0 9s

3. 縮容訓練任務 Worker

執行縮容時,可以通過 ScaleIn CR 中的 spec.toDelete.count ?或 spec.toDelete.podNames ?字段指定縮容的 worker。

通過 count 配置縮容的數量,則通過 index 計算由高到低縮容 Worker。

apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata:name: scalein-workers spec:selector:name: elastic-trainingtoDelete:count: 1

如果想要縮容特定的 Worker,可以配置 podNames:

apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata:name: scalein-workers spec:selector:name: elastic-trainingtoDelete:podNames:- elastic-training-worker-1

運行一個縮容示例,指定數量縮容 1 個 worker:

kubectl create -f examples/scale_in_count.yaml

檢測縮容執行狀態和訓練任務:

# kubectl get scalein NAME PHASE AGE scalein-sample-t8jxd ScaleSucceeded 11s# kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 47s elastic-training-worker-0 1/1 Running 0 50s

4. 擴容訓練任務

在 ScaleOut CR 中,通過 spec.toAdd.count 字段指定擴容的 worker 數:

apiVersion: kai.alibabacloud.com/v1alpha1kind: ScaleOutmetadata:name: elastic-training-scaleout-9dtmwnamespace: defaultspec:selector:name: elastic-trainingtimeout: 300toAdd:count: 2

運行示例:

kubectl create -f examples/scale_out.yaml

檢測縮容執行狀態和訓練任務:

kubectl get scaleout NAME PHASE AGE elastic-training-scaleout-9dtmw ScaleSucceeded 30s kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 2m5s elastic-training-worker-0 1/1 Running 0 2m8s elastic-training-worker-1 1/1 Running 0 40s elastic-training-worker-2 1/1 Running 0 40s

總結

ET-Operator 提供一組訓練和擴縮容 CRD 和 Controller, 讓我們在 Kubernetes 上方便地運行彈性分布式訓練,支持下發分布式訓練任務,并通過和分布式框架的集成聯動,在訓練任務運行過程中動態地擴容和縮容參與運算的 Workers。使我們的訓練任務具有彈性能力,結合搶占實例,能夠更好的利用云上的資源彈性和性價比優勢。

總結

以上是生活随笔為你收集整理的在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲自拍三区 | 寡妇一级片 | 97超碰人人模人人人爽人人爱 | 5个黑人躁我一个视频 | 毛片全黄 | 性久久久久久久 | 国产在线不卡一区 | 91丨九色丨蝌蚪丨对白 | 精品人妻一区二区三区换脸明星 | 黄色高清片 | 欧美日韩一二三四 | 精品一区电影 | 欧美做爰全过程免费观看 | av黄色在线观看 | 欧美交换 | 日日摸日日碰夜夜爽无码 | 亚洲毛片在线观看 | 一区二区国产在线 | av高潮| bt男人天堂 | 精品综合久久 | 免费看黄色一级大片 | 久久国内免费视频 | 成人视屏在线 | 欧美激情在线免费观看 | 黑人巨大精品欧美一区二区 | 国产久草视频 | 在线观看国产精品入口男同 | 伊人网视频 | 朝桐光在线播放 | 欧美美女黄色 | 一区二区三区久久久久 | 日本免费中文字幕 | 女人张开双腿让男人捅 | 精品日韩在线观看 | 激情成人综合网 | 在线免费播放av | 午夜淫片| 中文字幕人妻一区二区在线视频 | 中国女人av | 韩国女主播一区二区 | 深爱激情丁香 | 亚洲av无码专区国产乱码不卡 | 一区二区日韩av | 欧美高清视频一区二区三区 | 色久综合 | 精品国产乱码一区二区三区99 | 亚洲精品a | 丝袜老师扒开让我了一夜漫画 | 国产精品电影院 | 狠狠久久久 | 成人毛片18女人毛片免费 | 欧美精品久久久久久久久 | 蜜臀一区二区三区精品免费视频 | 一区二区三区视频免费看 | 亚洲啪 | 成年人午夜网站 | 一卡二卡三卡在线视频 | 精品国产一区二区三区久久久 | 成人黄色免费在线观看 | 日本不卡一二 | 九九激情网 | 午夜久久网站 | 少妇精品久久久久www | 懂色av粉嫩av蜜乳av | 免费在线观看污 | 亚洲第一页在线 | 人人看人人插 | 亚洲综合欧美综合 | 色窝在线 | 亚洲三级av| 欧美性猛交xxxx免费看久久久 | 亚洲午夜电影网 | 日韩字幕在线 | 人与性动交zzzzbbbb | 秋霞福利网 | 国产免费大片 | 夜夜夜网 | 在线xxxx| 大陆日韩欧美 | 好吊妞这里只有精品 | 日本三级一区二区三区 | 亚洲va久久久噜噜噜久久天堂 | 色婷婷国产精品综合在线观看 | 隔壁人妻偷人bd中字 | 爱爱的免费视频 | 爱爱中文字幕 | 国产偷人 | a级片在线免费看 | 东南亚毛片 | 亚欧美日韩 | 亚洲激情成人 | 日本欧美另类 | 乱码一区二区三区 | 日韩av免费 | 蜜臀av一区二区三区激情综合 | 巨物撞击尤物少妇呻吟 | 中文文字幕文字幕高清 | 一区二区三区资源 |