运维流程化和标准化
主要內容內容抽象概況以下三方面:日常工作梳理、標準化和流程化制定、日常工作標準化和流程化執行。
一?運維工作梳理
運維工作相對比較繁雜,急需對運維對象數字規范化。大致分為數據中心(DC)運維、IT 資源運維、服務運維、事件管理四個部分。
● 數據中心運維工作的梳理 數據中心運維自建IDC機房的物理設備(服務器等),所以日常運維工作中有關于數據中心相關的工作,例如數據中心的設計和建設工作,數據中心日常巡檢,數據中心權限管理、備件梳理管理、設備上下架等管理等。架設在機房中的云平臺管理工作。
● IT 資源運維工作的梳理
1 IT 資源運維主要是指計算、存儲、網絡和安全四大基礎資源的運維工作。IT 資源運維工作涉及日常運維工作基礎資源,是整個運維工作的重點,基礎資源的保障好壞,關系著上層應用服務的健康運行情況。
2 計算資源包括物理服務器的管理,如開關機、配置修改、資源增加等;
3 存儲資源管理一般包括自建分部署存儲、商業存儲、NAS等相關存儲資源的賬戶權限管理、容量管理、監控等;
4 網絡資源運維管理工作主要包括網絡權限管理、設備配置變更等等;
5 安全資源運維管理主要日常與安全相關的規章制度和策略以及安全設備具體操作等。
● 工作系統運維工作梳理
系統運維的日常大多是與服務運維相關。運維服務部署(如:Nginx 部署、JDK、Tomcat 的部署等)、服務的配置變更和服務發布、服務變更等。服務運維設計的標準和規范指導日常服務運維工作的進行,并且為自動化運維做鋪墊,在日常運維工作中,對于重復的手工運維工作盡量通過腳本或其它實現自動化。
● 事件管理針對日常運維工作中出現的運維事件進行處理指導和提出管理方案。主要包括對事件進行分類、事件處理流程、如何匯報事件以及事件的總結等。
通過對日常運維工作所涉及的內容(對象)進行分類整理,并且加工提煉最后形成運維的標準和規范,將一些流程化的工作進行固化,并且逐步實現運維自動化,提高運維效率
二?運維標準化流程化文檔
結合公司實際運營情況,對運維標準護額和流程化文檔的提煉。在制定運維標準流程之前,必須制定好文檔編寫得規范和標準。整體的規范流程文檔的風格統一整齊。描述簡潔,設計流程相關要圖文并茂,重要流程圖要有流程說明和關鍵點備注。
● 數據中心運維流程標準化
1 數據中心巡檢流程
2 數據中心備件申請流程
3 數據中心故障處理流程
4 數據中心管理規范
數據中心設計標準規范 國家標準、國際標準、行業標準等。
● IT 資源運維流程標準化
IT 資源運維主要對涵蓋系統基礎設施的計算、存儲、網絡、安全四個基礎部分的運維其中著重偏向于硬件以及硬件配置相關運維工作。這其中涉及的規范和流程如下:
1 物理服務器相關:
1) 物理服務器申請流程(申請、評估、審核、采購、驗收)
2) 物理服務器上架流程:布線、上架、安裝操作系統
3) 操作系統安裝標準規范
4) 物理服務器配置變更流程:申請、評估、審核、變更
5) 物理服務器到期處理流程:自動觸發申請、評估、遷移、驗證、進入報廢流程
6) 物理服務器報廢流程:申請、驗證、審核、利舊建議、關機、進入下架流程
7) 物理服務器下架流程:關機后 15 日、斷電、下架、利舊、銷毀
2 虛擬機/容器相關流程標準化:
1) 虛擬機/容器化申請流程規范。
2) 虛擬機/容器安裝標準規范
3) 虛擬機/容器配置變更流程規范
4) 虛擬機/容器刪除流程規范
3 網絡資源流程標準化
1) 網絡設備申請流程
2) 網絡設備上架流程
3) 網絡配置變更流程
4) 網絡設備報廢流程
5) 網絡設備下架流程
4 安全資源
1) 安全設備申請流程
2) 安全設備上架流程
3) 安全設備配置變更流程:配置升級、擴容、端口開通、訪問控制、策略修改
4) 安全設備報廢流程
5) 安全設備下架流程
5 存儲資源
1) 存儲設備申請流程
2) 存儲設備上架流程
3) 存儲設備配置變更流程:包括硬盤添加、更換,容量擴容
4) 存儲設備報廢流程
5) 存儲設備下架流程
● 服務運維流程標準化
對于日常運維服務相關的標準化和流程化主要是標準化部署、配置以及流程化的處理如發布、變更等,這其中還包括數據庫的數據處理流程、生產賬號管理流程、以及備份和監控的標準規范等。
1 基礎軟件或中間間管理流程標準化
安裝、優化配置、安全加固、備份、監控、日志備份、包括高可用和負載均衡集群部署等
1) Nginx 安裝標準規范
2) Haproxy 安裝標準規范
3) Apache 安裝標準規范
4) JDK 安裝標準規范
5) Tomcat 安裝標準規范
6) Weblogic 安裝標準規范
7) MQ 安全標準規范:ActiveMQ、RabbitMQ
8) Redis 安裝標準規范
9) MongoDB 安裝標準規范
10) 大數據平臺安裝部署標準規范:大數據生態圈組件安裝標準規范
11) Oracle 安裝標準規范:單機、DG、RAC、OGG 同步
2 生產應用系統相關流程標準化
1) 發布流程、變更流程、刪除流程
2) 測試賬號/管理賬號管理流程
3) 數據手工處理流程
4) 監控管理規范
5) 信息風險源管理流程
6) 備份管理規范:備份對象、備份時間、備份頻次、備份耗時、備份驗證、備份監控
● 數據資產流程標準化
● 事件管理流程標準化
針對日常運維過程中出現的事件進行規范化和流程化管理與指導,使工程師在處理運維事件的時候有章可循,以達到事件通知上通下達、規范化處理、快速高效處理的目的,事件處置形成標準化的專家知識庫。
1) 事件管理運維事件分類規范
2) 運維事件處理流程:故障處理、安全事件處理
3) 運維事件通報流程
4) 運維事件處理規范
5) 重保運維管理規范
三 運維對象數字化和流程標準化執行落地
通過運維工作梳理,進行運維標準化、流程化文檔的編寫之后,接下來就是最重要的落地執行。有規范流程標準,眾多運維工程師日常運維工作中摒棄某些個性工作習慣、求同存異遵循執行規范。
● 普及流程標準化意義,強化標準化文化意識。
首先是對工程師以及流程干系人進行標準化和流程化意義的普及,流程標準化落地初始階段,工程師帶來各種不方便和諸多不適應,讓大家了解知道進行標準化和流程化的意義,標準和流程得進行運維工作,可以大大減少人為失誤,同時讓大家在同一標準下工作,減少交流成本,相互之間的配合也會更加緊密。團隊協作流程化處理問題最大程度的減少相互之間的影響。最后,標準化和流程化是最運維自動化最基礎準備。
● 加快運維自動化的建立。
盡快將固化的標準和流程進行自動化的編碼開發,大大減少人為操作,提高運維效率,這樣運維工程師的日常工作因為大大減少人工操作,較以往會更加輕松。
● 優化標準化和流程化。標準化和流程化的制定是基于實際的日常運維工作的,在實際執行過程中,應該根據實際情況,進行不斷的優化調整,以達到最優。
● 所有運維操作完全按照運維的標準和流程進行
1 增量運維工作遵照標準化流程進行實施。
2 已存在的系統部署方式進行遷移至標準化的操作
對于遷移,也是標準化執行落地的痛點。初步考慮一般性思路:首先保留已存在非標準化系統,同時搭建標準化環境,進行已存在系統的部署并進行測試,測試無誤后,與已存在非標準化系統并行運行,同時提供對外服務一段時間后,在評估,最后將已存在非標準化系統進行下線,以達到系統平滑得由非標準化遷移至標準化的目的。
總結
- 上一篇: 提供凭证不足 无法访问这台计算机,提供的
- 下一篇: 关于SSL证书链的一些认识