一次生产问题的复盘
問題描述
前段時(shí)間同事離職接手了一個(gè)支付功能,昨天業(yè)務(wù)反饋說支付以后,顯示仍然在支付中,但是部分訂單已經(jīng)到賬了。情況比較詭異。
我們排查了數(shù)據(jù)以后,找到一筆比較正常的數(shù)據(jù),讓可以重新試下,我們排查下問題,結(jié)果這個(gè)客戶一下批量支付,重新支付了一遍。問題越發(fā)嚴(yán)重了。
處理過程
我們首先在日志平臺(tái)上對(duì)日志進(jìn)行排查,同時(shí)查詢支付數(shù)據(jù),發(fā)現(xiàn)確實(shí)存在幾筆支付成功了。
于是就有了第一個(gè)問題:支付成功了,但是業(yè)務(wù)狀態(tài)沒有更新
繼續(xù)查看根據(jù)日志平臺(tái)trace,繼續(xù)查看日志,發(fā)現(xiàn)報(bào)null,但是沒有打印出來哪里報(bào)錯(cuò)。
就出現(xiàn)了第二個(gè)問題:系統(tǒng)報(bào)錯(cuò),但是報(bào)錯(cuò)信息被捕捉,導(dǎo)致日志中沒有stackTrace信息
然后查看數(shù)據(jù)庫(kù)數(shù)據(jù),竟然又發(fā)現(xiàn)一個(gè)問題,就是有支付結(jié)果數(shù)據(jù),但是沒有支付請(qǐng)求數(shù)據(jù),
這就是第三個(gè)問題:支付成功了,但是請(qǐng)求數(shù)據(jù)都不存在了。導(dǎo)致這個(gè)問題的原因是直接在類上直接添加了@Transactional注解,循環(huán)報(bào)錯(cuò)了以后,直接導(dǎo)致前面的事務(wù)都回滾了。
因?yàn)閯傞_始沒找到問題,想讓客戶重新點(diǎn)擊一筆試一下,結(jié)果客戶批量執(zhí)行,導(dǎo)致剛才已經(jīng)支付的業(yè)務(wù)又重新執(zhí)行了一遍。這其實(shí)是剛才第一個(gè)問題,已經(jīng)支付的業(yè)務(wù)狀態(tài)不能重復(fù)支付,要加上校驗(yàn)。第四個(gè)問題:已支付的業(yè)務(wù)重復(fù)支付。
- 支付成功后,支付狀態(tài)沒有更新
- 支付成功的業(yè)務(wù)沒有記錄數(shù)據(jù)。
- 在查找問題的過程中沒有打印報(bào)錯(cuò)信息
- 已支付的業(yè)務(wù)不能重復(fù)支付
系統(tǒng)優(yōu)化
- 已經(jīng)支付成功的數(shù)據(jù)需要立即修改業(yè)務(wù)支付狀態(tài),不能等全部結(jié)束以后批量更新,因?yàn)槿绻袌?bào)錯(cuò),則不能繼續(xù)進(jìn)行,但是已經(jīng)支付的數(shù)據(jù)不再回滾。已支付的業(yè)務(wù)不再重復(fù)支付。
- 修改try catch錯(cuò)誤打印方式,由getMessge()改為getStackTrace()
- 取消全局的@Transation,避免全局回滾。
經(jīng)驗(yàn)總結(jié)
- 已經(jīng)支付的業(yè)務(wù)要立即進(jìn)行更新支付狀態(tài)
- 同一個(gè)mergeId已經(jīng)支付的賬戶不能重復(fù)支付。這是個(gè)很嚴(yán)重的問題。
- 把報(bào)錯(cuò)信息打印出來
對(duì)于遍歷處理的功能,需要想到異常出現(xiàn)以后怎么辦?不能出現(xiàn)重復(fù)支付的情況。
總結(jié)
- 上一篇: 动态条形图(RunBargraph)用于
- 下一篇: POJ 1797 Heavy Trans