一次上线事故经验
上線對開發來說,是一個歷險的過程,即使上線前準備的多么充分,也可能在線上發現問題。
最近上了一個項目,在測試環境和預發布環境平穩運行超過3個月,上線是預警系統發生大量短信報錯,緊急查找bug,
發現問題原因:
? ? 生產數據庫的一個表中的字段a的長度不一致,測試環境和預發布環境該字段的長度是20,上線時使用的腳本是預發布環境的腳本,回歸腳本時發現生產上該字段的長度是30.
影響:
? ?所幸a字段只在監控系統使用,且測試環境和預發布環境中的預警是關閉的,故運行很久沒有發現問題。
猜測可能的原因:
? 該字段最早只有長度是20,后面因業務需要擴充到30個字段,但沒有和我這邊溝通而是直接聯系dba修改導致。具體原因也不便追溯。
反思:
? 本次上線發生事故,主要責任是我,沒有對上線的腳本和生產腳本進行嚴格的檢查(多次檢查生產腳本是否和上線腳本是否一致,但忽略了長度的檢查)。
? 對自己要求不夠嚴格,以為在測試和預發布環境運行那么久,所以粗心大意了。
對以后的要求:
1. 數據庫腳本一定要嚴格審查,使用Beyond Compare等對比工具而不是眼睛,畢竟人容易犯錯。
? ?2. 對待上線,再謹慎也不為過。
?
以此文謹記!
轉載于:https://www.cnblogs.com/davidwang456/p/5003262.html
總結
- 上一篇: zookeeper源码分析之四服务端(单
- 下一篇: 技术高手如何炼成?--转自知乎