mysql中间件是运维工作内容_linux运维工作的七项内容
一,【基礎運維檢查】
或叫 例行檢查 或叫 例行巡檢
mail cacti
1.理解例行檢查列表的內(nèi)容、檢查項的含義以及可能引發(fā)的問題。
2.按照例行檢查表,定期檢查系統(tǒng)狀態(tài),發(fā)現(xiàn)異常立即通報并推進解決。
3.定期檢查線上服務模塊,排除可疑進程, 發(fā)現(xiàn)問題及時通報。
4.理解監(jiān)控和統(tǒng)計報表的各項含義,每天定時檢查報表,發(fā)現(xiàn)異常立即通報并推進解決。
5.制定服務例行檢查要點和方法,部署執(zhí)行并不斷完善,避免檢查的盲點。
工作清單參考
1.在預期的時間內(nèi),根據(jù)執(zhí)行手冊,保質(zhì)保量完成產(chǎn)品線既定的例行檢查工作。
2.通過技術(shù)方式提高例行檢查的效率。
3.有能力發(fā)現(xiàn)潛在問題,制定或者補充合理的檢查清單和檢查方式,保證基礎運維有效進行。
4.進行問題和追查,并解決可能的隱患。
具體檢查項舉例
機器性能:idle>60%,memfree>60%,io<30MB/s,nic<90MB/s,disk_used<80%
模塊日志:請求次數(shù)<800次/s ,耗時<300ms/次,日志fatal|error|warnning條數(shù)
系統(tǒng)日志:查檢內(nèi)核日志是否有異常輸出 '(I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)'
數(shù)據(jù)報表:前一天用戶訪問量報表,前一天用戶提交量報表,各地域訪問服務流量情況和耗時情況,非正常用戶(網(wǎng)頁抓取)訪問量情況
備份檢查:檢查夜間的數(shù)據(jù)備份是否正常。
如在排查過程中遇到問題,需要及時跟進:
憑估問題影響,及時通報,跟進問題,定位問題,提出解決方案,經(jīng)確認后執(zhí)行解決方案,最后通報問題已解決 并 給出如何讓此類問題不再次發(fā)生。
二,【整理預案】
工作清單參考
1.根據(jù)服務穩(wěn)定性和部署現(xiàn)狀,整理服務執(zhí)行預案。
2.將服務分級別,分層次,整理不同重要性的應急預案。
3.定期進行預案演練,每季度進行一次大規(guī)模預案演練,但如有重要級別的服務,可以加快預案練習頻率(每月演練一次)
4.記錄預案執(zhí)行時間,人員,操作耗時,影響服務時間,服務恢復時間,最后整理整個預案演習的時間和真正影響服務時間。
5.根據(jù)預案演練發(fā)現(xiàn)的問題,記錄問題原因,并更新預案,如果有遺漏的監(jiān)控應在預案演練后及時添加監(jiān)控。
6.優(yōu)化預案執(zhí)行過程,預案執(zhí)行自動化,降低影響服務的時間。
三,【故障處理】
1.熟悉服務日常故障處理方法和預案執(zhí)行要點。
2.對已知線上故障能按流程進行通報并按預案執(zhí)行。
3.及時處理并回復相關(guān)的服務報警信息。
4.能透徹分析報警原因,并推動報警問題解決。
5.能發(fā)現(xiàn)服務隱患,總結(jié)處理方法和提出預案改進建議。
四,【數(shù)據(jù)備份】
1.根據(jù)服務類型,將需要備份的數(shù)據(jù)劃分重要級別,理解什么數(shù)據(jù)需要全量備份,什么時候需要增量備份,并且需要確認數(shù)據(jù)需要保留天數(shù)。
2.編寫數(shù)據(jù)恢復預案,定期演練,包含但不限于每季度的數(shù)據(jù)恢復測試;
3.根據(jù)服務調(diào)整、機器遷移等服務變更須及時更新備份方案;
五,【機器管理】
1.熟悉服務器資源狀況,機房分布情況,并能做到批量管理,自動化管理。
2.合理使用服務器資源,根據(jù)不同服務的需求,安排不同配置的服務器。
3.保證服務器正常運行,對服務器硬件添加或變更來解決資源不足問題。
4.熟悉服務器上下架、上下線、搬遷相關(guān)流程。
六,【服務管理】
服務與服務間的關(guān)聯(lián)關(guān)系。
線上服務操作注意事項。
及時發(fā)現(xiàn)服務上的問題,并及時跟進、推動解決。
整理運維文檔,記錄每個服務的問題或潛在問題和這個服務的特殊點。
七,【技術(shù)審核】
1.編制或?qū)徍松暇€步驟、回滾方案。
2.按流程高質(zhì)量地完成上線、操作,包括上線后的檢查復核以及緊急情況下的回滾操作。
3.用腳本和自動化的方法實現(xiàn)上線和操作,改進上線/操作過程。
具體審核點:
1.評估變更對運維影響(如資源、接口、平臺),產(chǎn)出評估影響,以及應對策略。
2.評估變更對業(yè)務的影響(如流量、收入、網(wǎng)頁數(shù)等)
3.變更執(zhí)行
3.1變更時間、地點、參與;
3.2變更方案(含 執(zhí)行方案、預案);
3.3變更執(zhí)行;
3.4變更check;(業(yè)務和運維);
3.5變更回顧;
4.對所做的變更進行回顧和總結(jié)
4.1變更問題總結(jié)和改進;
4.2改進措施與實施;
4.3改進對業(yè)務推動;
4.4改進對運維推動;
總結(jié)
以上是生活随笔為你收集整理的mysql中间件是运维工作内容_linux运维工作的七项内容的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java基础练习题——查找整数
- 下一篇: 用Redis客户端工具连接Redis