如何进行生产环境作业监控
生活随笔
收集整理的這篇文章主要介紹了
如何进行生产环境作业监控
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
聲明:本系列博客為原創,最先發表在拉勾教育,其中一部分為免費閱讀部分。被讀者各種搬運至各大網站。所有其他的來源均為抄襲。
《2021年最新版大數據面試題全面開啟更新》
之前我們介紹如何發現Flink任務是否出現反壓,Flink后臺頁面是發現問題的第一選擇,后臺頁面可以直觀、清晰地看到當前作業的運行狀態。
在實際生產中,Flink的后臺頁面可以方便對Flink JobManager、TaskManager、執行計劃、Slot分配、是否反壓等參數進行定位,對單個任務來講可以方便地進行問題排查。
但是對很多中大型企業來講,對集群的作業進行管理時,更多的是關心作業精細化實施運行狀態。例如,實時吞吐的同比環比、整個集群的任務運行概覽、集群水位,或者監控利用Flink實現的ETL框架的運行情況等,這時候需要設計專門的監控系統來監控集群的任務作業情況。
Flink Metrics
針對上面的情況,可以使用Flink提供的另一個強大的功能:Flink Metrics。
Flink Metrics是Flink實現的一套運行信息收集庫,不但可以手機Flink本身提供的系統指標,比如CPU、內存、線程使用情況、JVM垃圾收集情況、網絡和IO等,還可以通過繼承和實現指定類或者接口打點手機用戶自定義的指標。
使用Flink Metrics可以做到:
- 實時采集Flink中的Metrics信息或者自定義用戶需要的指標信息并進行展示;
- 通過Flink提供的Rest API收集這些信息&
總結
以上是生活随笔為你收集整理的如何进行生产环境作业监控的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 否打开人工智能的“黑箱”?
- 下一篇: 复盘|接口自动化测试框架建设的经验与教训