linux 内核Lockup机制浅析
概念說明
Linux內(nèi)核Lockup就是linux內(nèi)核占用CPU不放,Lockup分為兩種:soft lockup 和 hard lockup。
soft lockup是指CPU被內(nèi)核代碼占據(jù),以至于無法執(zhí)行其它進程。檢測soft lockup的原理是給每個CPU分配一個定時執(zhí)行的內(nèi)核線程[watchdog/x],
如果該線程在設定的期限內(nèi)沒有得到執(zhí)行的話就意味著發(fā)生了soft lockup,[watchdog/x]是SCHED_FIFO實時進程,優(yōu)先級為最高的99,擁有優(yōu)先運行的特權。
hard lockup比soft lockup更加嚴重,CPU不僅無法執(zhí)行其它進程,而且不再響應中斷。檢測hard lockup的原理利用了PMU的NMI perf event,
因為NMI中斷是不可屏蔽的,在CPU不再響應中斷的情況下仍然可以得到執(zhí)行,它再去檢查時鐘中斷的計數(shù)器hrtimer_interrupts是否在保持遞增,
如果停滯就意味著時鐘中斷未得到響應,也就是發(fā)生了hard lockup。
linux內(nèi)核的代碼實現(xiàn)在kernel/watchdog.c中,
主體涉及到了3個東西:kernel線程,時鐘中斷,NMI中斷(不可屏蔽中斷)。
這3個東西具有不一樣的優(yōu)先級,依次是kernel線程 < 時鐘中斷 < NMI中斷。
檢測機制
Linux kernel設計了一個檢測lockup的機制,稱為NMI Watchdog,是利用NMI中斷實現(xiàn)的,用NMI是因為lockup有可能發(fā)生在中斷被屏蔽的狀態(tài)下,這時唯一能把CPU搶下來的方法就是通過NMI,因為NMI中斷是不可屏蔽的。NMI Watchdog 中包含 soft lockup detector 和 hard lockup detector,2.6之后的內(nèi)核的實現(xiàn)方法如下。
NMI Watchdog 的觸發(fā)機制包括兩部分:
1. 一個高精度計時器(hrtimer),對應的中斷處理例程是kernel/watchdog.c: watchdog_timer_fn(),在該例程中:
要遞增計數(shù)器hrtimer_interrupts,這個計數(shù)器供hard lockup detector用于判斷CPU是否響應中斷;
要喚醒[watchdog/x]內(nèi)核線程,該線程的任務是更新一個時間戳;
soft lock detector檢查時間戳,如果超過soft lockup threshold一直未更新,說明[watchdog/x]未得到運行機會,意味著CPU被霸占,也就是發(fā)生了soft lockup。
2.基于PMU的NMI perf event,當PMU的計數(shù)器溢出時會觸發(fā)NMI中斷,對應的中斷處理例程是 kernel/watchdog.c: watchdog_overflow_callback(),
hard lockup detector就在其中,它會檢查上述hrtimer的中斷次數(shù)(hrtimer_interrupts)是否在保持遞增,如果停滯則表明hrtimer中斷未得到響應,也就是發(fā)生了hard lockup。
參數(shù)設定
hrtimer的周期是:softlockup_thresh/5。
在2.6內(nèi)核中:
softlockup_thresh的值等于內(nèi)核參數(shù)kernel.watchdog_thresh,默認60秒;
而到3.10內(nèi)核中:
內(nèi)核參數(shù)kernel.watchdog_thresh名稱未變,但含義變成了hard lockup threshold,默認10秒;
soft lockup threshold則等于(2*kernel.watchdog_thresh),即默認20秒。
NMI perf event是基于PMU的,觸發(fā)周期(hard lockup threshold)在2.6內(nèi)核里是固定的60秒,不可手工調(diào)整;在3.10內(nèi)核里可以手工調(diào)整,
因為直接對應著內(nèi)核參數(shù)kernel.watchdog_thresh,默認值10秒。
異常處理
檢測到 lockup 之后怎么辦?可以自動panic,也可輸出條信息就算完了,這是可以通過內(nèi)核參數(shù)來定義的:
kernel.softlockup_panic: 決定了檢測到soft lockup時是否自動panic,缺省值是0;
kernel.nmi_watchdog: 定義是否開啟nmi watchdog、以及hard lockup是否導致panic,該內(nèi)核參數(shù)的格式是”=[panic,][nopanic,][num]”.
參考:https://www.kernel.org/doc/Documentation/lockup-watchdogs.txt
總結
以上是生活随笔為你收集整理的linux 内核Lockup机制浅析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宗介和波妞是什么
- 下一篇: 报任安书原文及翻译节选