微博机器学习平台云上最佳实践
簡介:?本文講述了微博機器學習平臺和深度學習平臺的業務功能和云上實踐,剖析了阿里云大數據在微博這兩大學習平臺的架構建設上所起到的作用。
作者:新浪微博數據計算平臺系統架構師 曹富強
本文講述了微博機器學習平臺和深度學習平臺的業務功能和云上實踐,剖析了阿里云大數據在微博這兩大學習平臺的架構建設上所起到的作用。
微博介紹
微博是2008年上線的,中國頭部、流行的社交媒體平臺,提供人們在線創作、分享和發現優質內容的服務,微博的大規模機器學習平臺可支持千億級參數、百萬QPS調用。目前微博的日活是2.22億,月活是5.16億。
微博機器學習平臺(WML)優勢
微博機器學習平臺的特點是樣本規模大,百億級樣本,實時性比較高,是分鐘級,然后模型規模是百億級,模型實時性根據不同場景有小時級、分鐘級和秒級。作業的穩定性的話要求是三個9,平臺業務多,場景豐富迭代快。
微博機器學習平臺(WML)CTR模型
微博機器學習平臺的CTR模型經過數字版本的迭代,從1.0的離線機器學習到3.0的離線和深度,到5.0的在線機器學習、離線機器學習和深度機器學習結合。再到目前我們是往在線深度學習方向發展。總體來說經過歷史迭代,目前支撐的參數規模達千億級,服務峰值達百萬QPS,模型更新是10分鐘量級。
微博機器學習平臺(WML)架構
我們看一下微博機器學習平臺的架構,微博機器學習平臺為CTR、多媒體等各類機器學習和深度學習算法,提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。總體的話是基于在線計算集群,離線計算集群和高性能計算集群。我們通過資源的WeiBox調度框架和WeiFlow工作流引擎,計算平臺的話是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了諸多豐富的算法。基于這些算法,訓練的模型,我們入到我們WeiPS模型庫,然后通過WeiServing對外提供在線推理服務。
微博機器學習在阿里云上實踐
我們的阿里云上實踐使用了Flink、MaxCompute、Alink、PAI。基于這些服務提供了熱門微博、Feed流、綠洲推薦,使用MaxCompute實現在相同規模下萬億樣本百億特征全量訓練,比Hadoop集群提升10倍。支持從天級到分鐘級的實時熱門微博、Feed流業務推薦及搜索樣本實施訓練、上線,業務推薦效果提升10%。基于Flink搭建了實時計算平臺,集成了作業提交端UI/WeiClient、作業管理、資源管理、日志系統、監控報警系統等各鏈路,作業規模上千。整體來說阿里云建設機器學習有幾大優勢:支持大規模處理、算法豐富、平臺成熟運維方便、投入時間直接聚焦到業務。
微博深度學習平臺(WDL)典型業務場景
接下來介紹微博深度學習相關的業務,目前的話在微博的關系流、綠洲、新浪視頻推薦、正文推薦流里面都有深度學習的應用。
微博深度學習平臺(WDL)架構
基于在線gpu的機器,我們通過K8s和Yarn管理,然后通過WeiArena和el-submit提交任務。我們的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了樣本庫讀取和輸出的模型庫。然后WeiServing加載了模型庫,對外提供兩路服務,一個是通過AI服務直接對外提供AI輸出能力,另外就是我們的計算服務WeiStorm,集成了數據流,調用WeiServing RPC服務框架,實時生成多媒體特征,對外提供在線服務推理。
微博深度學習平臺(WDL)多媒體特征生成
微博機器學習深度平臺多媒體特征的生成,只有兩條鏈路,第一路是離線的訓練,離線訓練模型通過數據源的處理輸出到樣本庫,然后通過我們WeiServing分布式訓練模型調用,輸出到模型庫,這一路的話是一鍵CICD、分布式訓練、支持多種類的模型。另一路是在線推理,在線推理的話消費多媒體實時數據流,調用我們的WeiServingRPC框架,輸出多媒體特征,然后應用到業務,這條鏈路的話,我們通過對賬系統、case追蹤、全鏈路監控去做服務保障,成功率是99.99%,延時是秒級延時。開發模式是通過UI化、配置化、一鍵部署。
微博深度學習平臺(WDL)基本功能
微博深度學習平臺產品功能的話,一個是樣本庫,然后分布式訓練,模型庫,在線推理服務和計算服務。樣本庫的話主要是包含樣本數據管理和樣本分布式存儲,對在各節點上零散的樣本進行統一管理;分布式訓練的話,內置常用深度學習算法并持續新增成熟的算法,規范樣本讀取,訓練gpu集群的靈活調度和訓練模型的統一存儲;模型庫的話提供分布式系統和本地兩種存儲方式,為在線推理服務提供模型;在線推理服務,支持Python和C++模型的一鍵部署,實現模型推理的服務化以及監控、告警等。可封裝為HTTP服務,對外直接提供AI的能力,實現AI能力的直接輸出;計算服務,基于內部的多媒體分發系統,接入多媒體數據流,調用在線推理服務,實時生成多媒體特征。
微博深度學習平臺(WDL)業務實踐
微博深度學習平臺業務實踐,早期的話基于單機訓練處理大規模數據時訓練周期長,迭代慢,影響業務效果。 于是我們提供了多媒體深度學習服務方案,微博深度學習平臺就應運而生,實現了樣本存儲、離線訓練、在線推理及模型存儲一體化功能。最終產生的效果和業務價值是:分布式訓練極大縮短了訓練時間,為快速業務迭代提供良好基礎;一體化服務讓我們只需要專注于模型算法優化,提高業務效率,整體上為業務賦能和業務承建產生了巨大的推動力。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的微博机器学习平台云上最佳实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spring boot 2.3优雅下线,
- 下一篇: 持续定义SaaS模式云数据仓库+Serv