OpsRamp推出以服务为中心的AIOps和云监控功能
OpsRamp是一個面向混合企業的以服務為中心的AIOps軟件即服務(SaaS)平臺,最近發布了新的拓撲圖、增強的人工智能IT運維(AIOps)功能以及針對云原生工作負載的監控功能。
新版的OpsRamp平臺為現代IT運營管理團隊提供了Kubernetes監控、智能警報路由和拓撲圖。它為混合基礎設施監控和管理提供了更強大的以服務為中心的環境,讓企業IT團隊能夠采用更智能的事件管理機制,并提供卓越的用戶體驗。
OpsRamp產品管理副總裁Mahesh Ramachandran將“以服務為中心”定義為:
以服務為中心的觀點將數字運營團隊的重心從管理元素轉移到管理業務服務。OpsRamp AIOps解決方案旨在通過更快的補救和事件響應來滿足服務可用性和性能需求。這樣可以幫助IT組織將基礎設施環境從一系列設備、資源和配置重新構建為一系列業務服務,我們認為這些服務更易于管理。它還將傳統IT、DevOps和業務目標整合并統一為一個共同愿景。IT像業務一樣思考其所需的資源——以服務為核心。
新版本提供了影響可見性和服務上下文功能,可發現混合云和多云IT技術棧中多級資源之間的拓撲關系。拓撲圖旨在幫助基礎設施和運營團隊了解IT資源對彼此以及面向最終用戶的IT服務的影響。OpsRamp的拓撲發現功能現在可用于應用程序和hypervisor。應用程序拓撲功能可發現40多種流行的企業應用程序,并在應用程序組件和基礎設施之間建立拓撲關系。hypervisor拓撲功能可發現VMware vSphere和KVM環境中的虛擬機、hypervisor服務器和集群以及它們之間的關系。
OpsRamp還增強了服務地圖功能,提供了新的用戶界面,可以識別IT服務中斷背后的底層資源,讓運營團隊制定正確的恢復服務行動方案。新版本引入了一些新功能,包括自動事件創建和路由、推理模型的增強訓練和頻率驅動的警報升級。
OpsRamp的OpsQ現在可以使用警報升級策略進行自動事件創建和路由,根據之前的警報、事件和通知數據自動分配事件。機器學習驅動的警報升級使用特定的學習模式(受讓人組、業務影響、緊急程度和優先級)為不同類型的警報路由事件分配。OpsRamp的基于機器學習的推理模型使用歷史警報數據關聯由常見原因引起的警報。OpsQ現在允許使用用戶提供的訓練數據來增強這些模型。通過這種增強訓練,IT運營團隊可以引導OpsQ識別日常運營中不常見的警報序列,當發生警報時能夠識別出來。要增強模型,用戶可以構建電子表格(或使用示例模板),使用預定義的數據(解析器組、類別、子類別、優先級、緊急程度和業務影響)將事件升級到服務管理。然后將這些數據應用于OpsRamp的事件管理工具和第三方事件管理集成。
OpsQ支持新的策略,比如根據最近發生警報的頻率來升級警報。運營團隊因此可以過濾掉只是偶爾會發生的警報,并升級反復發生的警報。OpsRamp平臺提供了多云事件監控功能,以及發現和監控支持現代微服務架構的容器基礎設施的功能。
OpsRamp現在可以在本地和云端(例如Azure Kubernetes Services、Google Kubernetes Engine和Amazon Elastic Container Service for Kubernetes)發現和監控Kubernetes環境。DevOps團隊可以了解每個Kubernetes集群的總服務(每個集群的節點和容器、按命名空間劃分的pod)和資源趨勢(CPU和內存利用)。用戶可以監控與集群、主機、NameSpaces、pod和容器的可用性和性能相關的關鍵指標。在公共云中,事件是重要的運維問題通信媒介,而在多云環境中,事件是信號的主要來源。OpsRamp現在可以從AWS服務(如AWS Health、ECS、Redshift、數據遷移服務和CloudWatch)收集、聚合、關聯和升級事件。有了這個功能,OpsRamp可以對跨多個云帳戶的云事件進行單點監控、管理和修復。
新的OpsRamp版本還提供了包含補丁合規性驗證的補丁管理功能、綜合事務和SSL證書監控、用于監控開源應用程序的集成,以及簡化分類和鏈接的知識庫增強。
查看英文原文:https://www.infoq.com/news/2019/02/opsramp-service-centricity-aiops
總結
以上是生活随笔為你收集整理的OpsRamp推出以服务为中心的AIOps和云监控功能的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一秒搭建gitbook
- 下一篇: OpenAI披露最新研究成果:AI训练如