人工智能训练平台
人工智能訓(xùn)練平臺(tái)
1、平臺(tái)定位
為深度學(xué)習(xí)提供一個(gè)深度定制和優(yōu)化的人工智能集群管理平臺(tái),讓人工智能堆棧變得簡單、快速、可擴(kuò)展。
● 為深度學(xué)習(xí)量身定做,可擴(kuò)展支撐更多AI和大數(shù)據(jù)框架
通過創(chuàng)新的AI平臺(tái)運(yùn)行環(huán)境支持,幾乎所有深度學(xué)習(xí)框架如CNTK、TensorFlow、PyTorch等無需修改即可運(yùn)行;其基于Docker的架構(gòu)則讓用戶可以方便地?cái)U(kuò)展更多AI與大數(shù)據(jù)框架。
● 容器與微服務(wù)化,讓AI流水線實(shí)現(xiàn)DevOps
AI平臺(tái) 100%基于微服務(wù)架構(gòu),讓AI平臺(tái)以及開發(fā)便于實(shí)現(xiàn)DevOps的開發(fā)運(yùn)維模式。
● 支持GPU多租,可統(tǒng)籌集群資源調(diào)度與服務(wù)管理能力
在深度學(xué)習(xí)負(fù)載下,GPU逐漸成為資源調(diào)度的一等公民,AI平臺(tái)提供了針對GPU優(yōu)化的調(diào)度算法,豐富的端口管理,支持Virtual Cluster多租機(jī)制,可通過Launcher Server為服務(wù)作業(yè)的運(yùn)行保駕護(hù)航。
● 提供豐富的運(yùn)營、監(jiān)控、調(diào)試功能,降低運(yùn)維復(fù)雜度
PAI為運(yùn)營人員提供了硬件、服務(wù)、作業(yè)的多級監(jiān)控,同時(shí)開發(fā)者還可以通過日志、SSH等方便調(diào)試作業(yè)。
2、系統(tǒng)架構(gòu)
AI平臺(tái)的架構(gòu)如下圖所示,用戶通過Web Portal調(diào)用REST Server的API提交作業(yè)(Job)和監(jiān)控集群,其它第三方工具也可通過該API進(jìn)行任務(wù)管理。隨后Web Portal與Launcher交互,以執(zhí)行各種作業(yè),再由Launcher Server處理作業(yè)請求并將其提交至Hadoop YARN進(jìn)行資源分配與調(diào)度。可以看到,AI平臺(tái)給YARN添加了GPU支持,使其能將GPU作為可計(jì)算資源調(diào)度,助力深度學(xué)習(xí)。其中,YARN負(fù)責(zé)作業(yè)的管理,其它靜態(tài)資
總結(jié)
- 上一篇: 圣诞纯情手势告白(Mediapipe基本
- 下一篇: 一、如何爬取链家网页房源信息