阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设
導語:在2018年開放數據中心峰會(Open Data Center Summit 2018)開幕式上阿里巴巴研究員劉國華發表了《阿里巴巴智能運維體系建設》的主題演講。演講中,劉國華介紹了智能化給阿里巴巴未來基礎設施帶來的三大價值:數據驅動決策、全局優化和變革。基于智能化,阿里巴巴重塑了運維體系。通過智能化建設,基礎設施的交付效率提升了247%,需求預測準確率達到了每個月至少85%,物理機集群實現了100%全自動化運維。以下是他的演講內容實錄。
?
大家好,很榮幸可以跟大家分享一下阿里巴巴在智能化領域的建設。
在開始智能化運維之前,先跟大家分享一下過往兩年內,阿里巴巴在專業領域- 里做的大量創新:
- 我們已經開始大規模使用液冷集群來支持高密度計算
- 我們在FPGA建設了統一的編譯平臺,可以提升研發效率接近30倍以上
- 網絡端我們也開始做大量的創新,總的帶寬從25G到100G到400G
這些創新支持了現有所有AI業務的發展,同時我們也把AI融入到基礎設施領域,讓AI重塑現有的基礎設施。
智能化可以給未來的基礎設施帶來什么?
我們把智能化帶來的價值分為三層:
?
最底層是數據驅動決策。當我們所有的專業領域業務、所有的數據逐步實現在線化,帶來的第一層價值是保證演進是圍繞著數據展開的。第二層價值是,逐步透明化可以幫我們發現基礎設施層可以突破的技術點,每家公司的業務都是不同的,對底層也會有不同的訴求,這是最下層數據驅動決策層的價值。
第二層是全局優化。我們把所有的業務在線化、全面數字化之后,我們才有機會看到每個專業領域里核心的突破點在什么地方。我們都知道,數據中心內部會規劃上架密度,怎樣的上架密度是更合理的方式?傳統的方式是先對服務器的功耗提出一個評估,然后對IDC機架做評估,而現在的方式是把優化變成實時動態的方式,來提升數據中心的利用率。
最后一層是變革。當我們把智能化的能力運用到平臺,就有能力把特殊的點轉化為極大的優勢。以前所有的硬件故障發生的時候,所有的數據中心的運維模式都是屬于被動式響應。當智能化后,使用預測算法,就可以提前預估到所有故障,將所有故障的響應方式從被動響應轉化為主動服務。
阿里巴巴運維體系重塑
智能化建設最關鍵的三件事情:
第一, 要把基礎設施全面數字化,讓所有東西都變成可衡量的體系。
第二, 建設端到端、從業務到基礎設施全鏈條的自動化平臺,保證你的決策規劃和響應速度。
第三, 建立TCO模型,實現很好的反饋機制,利用反饋不斷優化我們的模型。
在智能化領域,我們采用的是橫跨專業、機器學習以及優化算法的跨界思考邏輯,基于這樣的思路,阿里巴巴重新規劃建設了基礎設施領域的三大平臺——基礎設施規劃與交付平臺、集群自動化運維平臺和數據中心智能運營平臺。
通過為這三大平臺引入智能化,我們重新創造出了與原來三大功能平臺不一樣的業務形態。下面我將具體分享智能化時代里,我們對這3大平臺的改進與思考。
一、 基礎設施規劃與交付平臺
首先分享一下阿里巴巴的基礎設施規劃與交付平臺。這個平臺的主要職責從業務需求規劃到基礎設施規劃,再到硬件研發、IDC建設、生產供應鏈以及OS交付、自動化交付平臺。這個平臺負責阿里巴巴所有基礎設施的規劃、建設與交付。最主要的兩個職責:第一是提升整體交付效率;第二是保證在不斷供的情況下實現成本最優。
我們在很多領域里引入算法后,做了很多大的改造。第一個改造是基于機器學習的方式,建立業務規劃驅動。這種方式可以讓業務具有更強的規劃性,在平臺可以快速把業務的規劃轉化成基礎設施的規劃,提升整體的基礎設施交付鏈路。通過這種方式,我們提升的效率接近247%。
第二個改造是,在鏈路已經全面在線化的時候,引入智能預測/預警系統,可以實時感知到業務的任何變化,并且做出實時決策。通過這種方式來提升運營效率,保證全面響應完全是圍繞業務的驅動去建設的。
第三個改造,我們為所有專業建設了供需模擬沙盤以及上架策略模擬,通過這種方式可以在線不斷模擬以及優化阿里巴巴內部供應鏈的策略以及上架策略,實時反饋到在線系統,持續優化供應鏈。
我們在做需求預測,業務端的數據,包括前端的數據,比如阿里云的銷售數據,以及下沉的基礎設施的庫存體系,結合機器學習的方式,解決需求預測的模式。目前我們的準確率最少會達到每個月85%左右。我們現在已經推動所有的業務按這種方式運作,從而讓基礎設施的建設具有極強的規劃性。
二、集群自動化運維平臺
集群自動化運維平臺解決的核心問題是:
一、 怎樣提升服務器規模化后的運維效率問題,以及基于業務視角的成本最優的解決方案。
二、 怎么保證業務的穩定性。基礎設施下面的任何故障不會影響上面所有業務的發展。
但是,當你業務發展規模到一定階段的時候,故障一定是不可避免的,我們怎么做?
第一,阿里巴巴集群運維平臺建設了一個全自動化的運維方式,這種運維方式最大的優勢在于,我們跟所有業務調度的方式,用了一種高標準的協議交互模式,可以把所有物理機的運維跟上層運維相互解耦,實現無人化的運維。阿里巴巴現在物理機集群已經100%運用全自動化運維方式,這是第一層在工程上的建設結果。
在智能化領域,我們還為所有的業務的提供基于業務視角的數據決策支撐的平臺。平臺最大的價值在于:第一,基于我們的數據平臺,可以把我們所有基礎設施的成本、利用率融入到業務調度里,實現成本最優化;第二,通過對不同類型業務的專業優化,來提升整體業務的成本競爭力。
第二,我們引入了一些算法去做智能異常檢測,包含兩部分:第一部分是我們在基礎設施領域在硬件領域做了大量的故障預測,通過故障預測去提前發現故障;第二部分是業務變更預測,我們會把所有業務的變更通過這個平臺進行預測,來看它變更后帶來的業務的影響。通過這樣預測的方式,結合剛才介紹的集群運維的主動服務能力,可以把集群運維的方式從原來被動的響應式逐步轉到現在做的主動服務式的模式。我們在硬盤故障上的預測結果,在萬分之八的誤報率條件下,召回率比業界最新進展提升20%以上,我們還在做宕機、網絡故障預測以內層故障預測,會堅持用這種方式逐步把我們運維的模式從原來被動響應轉成主動服務。
三、數據中心智能運營平臺
最后一個平臺是阿里巴巴的數據中心運營平臺,這個平臺的目標是提升數據中心內部運營效率以及實現能耗最優。
怎么解決運維效率的問題?通過智能的方式建設一個自主運維平臺,通過很多算法的決策來盡可能提升自主運維的成功率。目前為止,通過這種方式我們可以把阿里巴巴每個人運維的服務器臺數提升接近60%。
我們會建設一個全局能耗平臺來做全局動態節能體系,我們會在每個領域做深度能耗優化,把能耗的數字化逐步跟上層業務結合起來,提升機柜利用率。對于最核心的業務,我們最大可以提升接近20%的機柜密度。
同時我們在做專業領域的彈性機柜電力的創新,未來會把利用率提升更高,希望未來在數據中心可以把電力利用率和設計利用率相符。這是基于機器學習的算法做PUE的優化,目前通過深度學習的方式在現在的機房實測可以優化接近20%的PUE。未來數據中心的優化聯動會全自動化,實現動態優化PUE。
除了剛才介紹的供應鏈、服務器、數據中心外,我們在應用層、監控、集群運維都會大量投入智能化,實現全方位的智能化建設。
我今天分享就到這里,謝謝大家!
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文带你领略虚拟化领域顶级技术会议KVM
- 下一篇: 基于深度学习模型WideDeep的推荐