云计算基础设施智能运维的下一段征程,你们准备好了吗?
隨著云計算的不斷發展和普及,在背后支撐它的基礎設施技術也在飛速演進。2019年杭州云棲大會,在《大規模云計算基礎設施智能運維》分論壇上,來自阿里巴巴的資深技術專家們、以及英特爾的資深架構師和數萬開發者們分享了如何在數據,計算力,網絡互聯能力規模化增長的情況下,利用新的理念和技術手段來滿足云計算運維對于穩定性,成本和效率的核心訴求。
論壇深入淺出,集數據中心,服務器,網絡變更等硬件基礎設施運維,和云監控,云上應用運維為一體, 多元化地呈現給聽眾大規模云計算基礎設施運維領域的全方位發展及未來機遇。
整個專場由阿里巴巴云智能基礎設施事業部研究員趙曉雪作為出品人及主持人。在開場為大家解讀了基礎設施運維領域面臨的機遇與挑戰,并且帶領聽眾從始至終了解了運維在不同基礎設施領域和層面遇到的問題,及最新的解決方案。
阿里巴巴基礎設施事業部研究員? 趙曉雪
阿里巴巴云智能基礎設施事業部的高級算法專家何誠詳細解讀了阿里云如何借助數據智能技術來進行基礎設施服務器集群的運維。其中提到的集群自動修復系統,其核心是通過對服務器海量日志文本進行自然語言處理分析和分類,結合基于傳統的專家和工程師的歷史經驗規則進行故障狀態的智能檢測和問題發現,最終形成修復操作的智能化決策,并及時通知云上業務進行快速授權修復。目前的自動修復成功率達到了~90%。
《阿里巴巴智能運維創新探索和實踐》
何誠 阿里巴巴高級算法專家
大型計算機集群之間的數據通信離不開網絡的互聯。網絡運維也不容忽視。阿里巴巴云智能基礎設施事業部的高級技術專家翟恩南介紹了《阿里巴巴網絡的智能變更驗證》領域的最新研究進展,詳細分析了把復雜的網絡變更難題的智能化解決方案。保證網絡變更的穩定性,如何做到趨于零的變更故障率?翟恩南認為,可以從變更方案的形式化驗證,變更仿真灰度測試,執行中的實時驗證,自動回滾等一系列的全套解決方案來攻破這個難題。
《阿里巴巴網絡的智能變更驗證》
翟恩南 阿里巴巴高級技術專家
云基礎設施物理層的設備需要運維,跑在云上的應用本身也需要運維。阿里巴巴云智能研發效能事業部的高級技術專家劉撫狄介紹了阿里巴巴應用運維大腦 —— 監管控一體化中樞。以10年的時間展開,他介紹了阿里集團研發體系如何通過一套應用運維產品從物理資源、虛擬機平穩的過渡到云原生架構,提出了研發團隊面臨微服務和云原生場景下運維爆炸式增長問題的解決方案,以及應用運維的核心方法論。此外,阿里巴巴采用了分層的運維的方式,清晰定義各運維層次的組織職能和關鍵SLA,以追求可靠性、自動化的策略應對線上應用運維復雜性。劉撫狄認為,在不久的將來,阿里巴巴主打穩定性和安全工程解決方案的應用運維產品體系將會完成產品化,面向云客戶和企業提供混合云應用運維的集成解決方案。
?《阿里巴巴應用運維大腦 —— 監管控一體化中樞》
劉撫狄 阿里巴巴高級技術專家
?
智能決策算法離不開海量的監控數據。運維的終極目標也是監管控一體化。所以高可用,可擴展的監控系統必不可少。阿里巴巴云智能基礎設施事業部的資深技術專家陳國棟詳細介紹阿里云監控技術及未來。云監控對于上云客戶就像一雙雙眼睛,不僅能夠幫助用戶透視云上業務和計算存儲資源的數據,站點監控還可以提供外部網絡撥測,收集數據,一旦出現問題通知運維人員快速處理。云監控新的全球部署和負載均衡的架構會支持阿里云產品和用戶的飛速增長,同時保持監控告警的準確性和穩定性。云監控作為阿里云的事件中心,能把阿里云各云產品的事件也都收集起來,并且在未來基于這些信息實現更多的智能運維管控決策。
《阿里云監控技術及未來》?
陳國棟 阿里巴巴資深技術專家
?
基礎設施的運維優化不僅是服務器,網絡,數據中心每個領域本身的優化,也需要看全局。能夠平衡成本,穩定性和效率的一定是全局最優的解法。數據中心整體的能耗管控和優化就是個好例子。阿里巴巴云智能基礎產品事業部的資深技術專家宋軍深入介紹阿里巴巴基礎設施功耗管控和優化的解決方案。通過服務器,機柜,數據中心設施等多維度功耗數據采集,分析,處理,同時加以云上產品的業務負載信息,形成上下層聯動的智能決策機制,尋找同時滿足穩定性、成本、資源彈性三個方面的全局最優解。此外,宋軍通過功耗管控平臺的三個具體優化案例,帶領大家了解了如何做到提高性能的同時降低了能耗。
《阿里巴巴基礎設施功耗管控和優化》
宋軍 阿里巴巴資深技術專家
?
阿里巴巴基礎設施運維的很多技術實踐,離不開戰略合作伙伴的研發和技術賦能。本次專場特邀英特爾(Intel)的資深架構師宋川,為大家帶來了英特爾最新的云數據中心管理技術分享。宋川提到,英特爾是一個計算平臺的提供商,所以會從計算平臺的角度,幫助云客戶、互聯網客戶應對云計算帶來的各種挑戰。他分享了目前英特爾如何利用數據來幫助數據中心管理進行持續優化,以及從計算平臺的基礎硬件管理能力角度如何通過技術創新來幫助客戶解決云計算及數據中心環境中的關鍵問題。
《云數據中心管理技術》
宋川 英特爾資深架構師
2019的云棲大會《大規模云計算基礎設施智能運維》分論壇圓滿結束,希望討論和交流能夠帶給業界同行更多的啟發和思想的碰撞,生態與行業的協力,讓云計算基礎設施技術不斷前行,助力中國數字經濟發展和企業的數字化改革。
資料免費送(點擊鏈接下載)
加入運維管理VIP群(點擊鏈接查看)
掃描以下二維碼加入學習群
總結
以上是生活随笔為你收集整理的云计算基础设施智能运维的下一段征程,你们准备好了吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你以为ACI=SDN?大错特错!
- 下一篇: 数据中心用多模光纤技术及发展趋势