當(dāng)前位置：首頁 > 运维知识 > linux >内容正文

linux

Linux 内核调试器调试指南

發(fā)布時間：2023/12/18 linux 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Linux 内核调试器调试指南小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Linux 內(nèi)核調(diào)試器內(nèi)幕

KDB 入門指南

Hariprasad Nellitheertha (nharipra@in.ibm.com), 軟件工程師, IBM

簡介：?調(diào)試內(nèi)核問題時，能夠跟蹤內(nèi)核執(zhí)行情況并查看其內(nèi)存和數(shù)據(jù)結(jié)構(gòu)是非常有用的。Linux 中的內(nèi)置內(nèi)核調(diào)試器 KDB 提供了這種功能。在本文中您將了解如何使用 KDB 所提供的功能，以及如何在 Linux 機器上安裝和設(shè)置 KDB。您還將熟悉 KDB 中可以使用的命令以及設(shè)置和顯示選項。

Linux 內(nèi)核調(diào)試器（KDB）允許您調(diào)試 Linux 內(nèi)核。這個恰如其名的工具實質(zhì)上是內(nèi)核代碼的補丁，它允許高手訪問內(nèi)核內(nèi)存和數(shù)據(jù)結(jié)構(gòu)。KDB 的主要優(yōu)點之一就是它不需要用另一臺機器進(jìn)行調(diào)試：您可以調(diào)試正在運行的內(nèi)核。

設(shè)置一臺用于 KDB 的機器需要花費一些工作，因為需要給內(nèi)核打補丁并進(jìn)行重新編譯。KDB 的用戶應(yīng)當(dāng)熟悉 Linux 內(nèi)核的編譯（在一定程度上還要熟悉內(nèi)核內(nèi)部機理），但是如果您需要編譯內(nèi)核方面的幫助，請參閱本文結(jié)尾處的參考資料一節(jié)。

在本文中，我們將從有關(guān)下載 KDB 補丁、打補丁、（重新）編譯內(nèi)核以及啟動 KDB 方面的信息著手。然后我們將了解 KDB 命令并研究一些較常用的命令。最后，我們將研究一下有關(guān)設(shè)置和顯示選項方面的一些詳細(xì)信息。

入門

KDB 項目是由 Silicon Graphics 維護(hù)的（請參閱參考資料以獲取鏈接），您需要從它的 FTP 站點下載與內(nèi)核版本有關(guān)的補丁。（在編寫本文時）可用的最新 KDB 版本是 4.2。您將需要下載并應(yīng)用兩個補丁。一個是“公共的”補丁，包含了對通用內(nèi)核代碼的更改，另一個是特定于體系結(jié)構(gòu)的補丁。補丁可作為 bz2 文件獲取。例如，在運行 2.4.20 內(nèi)核的 x86 機器上，您會需要 kdb-v4.2-2.4.20-common-1.bz2 和 kdb-v4.2-2.4.20-i386-1.bz2。

這里所提供的所有示例都是針對 i386 體系結(jié)構(gòu)和 2.4.20 內(nèi)核的。您將需要根據(jù)您的機器和內(nèi)核版本進(jìn)行適當(dāng)?shù)母?。您還需要擁有 root 許可權(quán)以執(zhí)行這些操作。

將文件復(fù)制到 /usr/src/linux 目錄中并從用 bzip2 壓縮的文件解壓縮補丁文件：

#bzip2 -d kdb-v4.2-2.4.20-common-1.bz2#bzip2 -d kdb-v4.2-2.4.20-i386-1.bz2

您將獲得 kdb-v4.2-2.4.20-common-1 和 kdb-v4.2-2.4-i386-1 文件。

現(xiàn)在，應(yīng)用這些補丁：

#patch -p1 <kdb-v4.2-2.4.20-common-1#patch -p1 <kdb-v4.2-2.4.20-i386-1

這些補丁應(yīng)該干凈利落地加以應(yīng)用。查找任何以 .rej 結(jié)尾的文件。這個擴(kuò)展名表明這些是失敗的補丁。如果內(nèi)核樹沒問題，那么補丁的應(yīng)用就不會有任何問題。

接下來，需要構(gòu)建內(nèi)核以支持 KDB。第一步是設(shè)置 CONFIG_KDB 選項。使用您喜歡的配置機制（xconfig 和 menuconfig 等）來完成這一步。轉(zhuǎn)到結(jié)尾處的“Kernel hacking”部分并選擇“Built-in Kernel Debugger support”選項。

您還可以根據(jù)自己的偏好選擇其它兩個選項。選擇“Compile the kernel with frame pointers”選項（如果有的話）則設(shè)置 CONFIG_FRAME_POINTER 標(biāo)志。這將產(chǎn)生更好的堆?；厮?#xff0c;因為幀指針寄存器被用作幀指針而不是通用寄存器。您還可以選擇“KDB off by default”選項。這將設(shè)置CONFIG_KDB_OFF 標(biāo)志，并且在缺省情況下將關(guān)閉 KDB。我們將在后面一節(jié)中對此進(jìn)行詳細(xì)介紹。

保存配置，然后退出。重新編譯內(nèi)核。建議在構(gòu)建內(nèi)核之前執(zhí)行“make clean”。用常用方式安裝內(nèi)核并引導(dǎo)它。

回頁首

初始化并設(shè)置環(huán)境變量

您可以定義將在 KDB 初始化期間執(zhí)行的 KDB 命令。需要在純文本文件 kdb_cmds 中定義這些命令，該文件位于 Linux 源代碼樹（當(dāng)然是在打了補丁之后）的 KDB 目錄中。該文件還可以用來定義設(shè)置顯示和打印選項的環(huán)境變量。文件開頭的注釋提供了編輯文件方面的幫助。使用這個文件的缺點是，在您更改了文件之后需要重新構(gòu)建并重新安裝內(nèi)核。

回頁首

激活 KDB

如果編譯期間沒有選中 CONFIG_KDB_OFF ，那么在缺省情況下 KDB 是活動的。否則，您需要顯式地激活它－通過在引導(dǎo)期間將kdb=on 標(biāo)志傳遞給內(nèi)核或者通過在掛裝了 /proc 之后執(zhí)行該工作：

#echo "1" >/proc/sys/kernel/kdb

倒過來執(zhí)行上述步驟則會取消激活 KDB。也就是說，如果缺省情況下 KDB 是打開的，那么將 kdb=off 標(biāo)志傳遞給內(nèi)核或者執(zhí)行下面這個操作將會取消激活 KDB：

#echo "0" >/proc/sys/kernel/kdb

在引導(dǎo)期間還可以將另一個標(biāo)志傳遞給內(nèi)核。 kdb=early 標(biāo)志將導(dǎo)致在引導(dǎo)過程的初始階段就把控制權(quán)傳遞給 KDB。如果您需要在引導(dǎo)過程初始階段進(jìn)行調(diào)試，那么這將有所幫助。

調(diào)用 KDB 的方式有很多。如果 KDB 處于打開狀態(tài)，那么只要內(nèi)核中有緊急情況就自動調(diào)用它。按下鍵盤上的 PAUSE 鍵將手工調(diào)用 KDB。調(diào)用 KDB 的另一種方式是通過串行控制臺。當(dāng)然，要做到這一點，需要設(shè)置串行控制臺（請參閱參考資料以獲取這方面的幫助）并且需要一個從串行控制臺進(jìn)行讀取的程序。按鍵序列 Ctrl-A 將從串行控制臺調(diào)用 KDB。

回頁首

KDB 命令

KDB 是一個功能非常強大的工具，它允許進(jìn)行幾個操作，比如內(nèi)存和寄存器修改、應(yīng)用斷點和堆棧跟蹤。根據(jù)這些，可以將 KDB 命令分成幾個類別。下面是有關(guān)每一類中最常用命令的詳細(xì)信息。

內(nèi)存顯示和修改

這一類別中最常用的命令是 md 、 mdr 、 mm 和 mmW 。

md 命令以一個地址／符號和行計數(shù)為參數(shù)，顯示從該地址開始的 line-count 行的內(nèi)存。如果沒有指定line-count ，那么就使用環(huán)境變量所指定的缺省值。如果沒有指定地址，那么 md 就從上一次打印的地址繼續(xù)。地址打印在開頭，字符轉(zhuǎn)換打印在結(jié)尾。

mdr 命令帶有地址／符號以及字節(jié)計數(shù)，顯示從指定的地址開始的 byte-count 字節(jié)數(shù)的初始內(nèi)存內(nèi)容。它本質(zhì)上和md 一樣，但是它不顯示起始地址并且不在結(jié)尾顯示字符轉(zhuǎn)換。 mdr 命令較少使用。

mm 命令修改內(nèi)存內(nèi)容。它以地址／符號和新內(nèi)容作為參數(shù)，用 new-contents 替換地址處的內(nèi)容。

mmW 命令更改從地址開始的 W 個字節(jié)。請注意， mm 更改一個機器字。

示例

顯示從 0xc000000 開始的 15 行內(nèi)存：

[0]kdb> md 0xc000000 15

將內(nèi)存位置為 0xc000000 上的內(nèi)容更改為 0x10：

[0]kdb> mm 0xc000000 0x10

寄存器顯示和修改

這一類別中的命令有 rd 、 rm 和 ef 。

rd 命令（不帶任何參數(shù)）顯示處理器寄存器的內(nèi)容。它可以有選擇地帶三個參數(shù)。如果傳遞了 c 參數(shù)，則 rd 顯示處理器的控制寄存器；如果帶有 d 參數(shù)，那么它就顯示調(diào)試寄存器；如果帶有 u 參數(shù)，則顯示上一次進(jìn)入內(nèi)核的當(dāng)前任務(wù)的寄存器組。

rm 命令修改寄存器的內(nèi)容。它以寄存器名稱和 new-contents 作為參數(shù)，用 new-contents 修改寄存器。寄存器名稱與特定的體系結(jié)構(gòu)有關(guān)。目前，不能修改控制寄存器。

ef 命令以一個地址作為參數(shù)，它顯示指定地址處的異常幀。

示例

顯示通用寄存器組：

[0]kdb> rd

[0]kdb> rm %ebx 0x25

斷點

常用的斷點命令有 bp 、 bc 、 bd 、 be 和bl 。

bp 命令以一個地址／符號作為參數(shù)，它在地址處應(yīng)用斷點。當(dāng)遇到該斷點時則停止執(zhí)行并將控制權(quán)交予 KDB。該命令有幾個有用的變體。 bpa 命令對 SMP 系統(tǒng)中的所有處理器應(yīng)用斷點。 bph 命令強制在支持硬件寄存器的系統(tǒng)上使用它。 bpha 命令類似于bpa 命令，差別在于它強制使用硬件寄存器。

bd 命令禁用特殊斷點。它接收斷點號作為參數(shù)。該命令不是從斷點表中除去斷點，而只是禁用它。斷點號從 0 開始，根據(jù)可用性順序分配給斷點。

be 命令啟用斷點。該命令的參數(shù)也是斷點號。

bl 命令列出當(dāng)前的斷點集。它包含了啟用的和禁用的斷點。

bc 命令從斷點表中除去斷點。它以具體的斷點號或 * 作為參數(shù)，在后一種情況下它將除去所有斷點。

示例

對函數(shù) sys_write() 設(shè)置斷點：

[0]kdb> bp sys_write

列出斷點表中的所有斷點：

[0]kdb> bl

清除斷點號 1：

[0]kdb> bc 1

>堆棧跟蹤

主要的堆棧跟蹤命令有 bt 、 btp 、 btc 和 bta 。

bt 命令設(shè)法提供有關(guān)當(dāng)前線程的堆棧的信息。它可以有選擇地將堆棧幀地址作為參數(shù)。如果沒有提供地址，那么它采用當(dāng)前寄存器來回溯堆棧。否則，它假定所提供的地址是有效的堆棧幀起始地址并設(shè)法進(jìn)行回溯。如果內(nèi)核編譯期間設(shè)置了CONFIG_FRAME_POINTER 選項，那么就用幀指針寄存器來維護(hù)堆棧，從而就可以正確地執(zhí)行堆?；厮?。如果沒有設(shè)置 CONFIG_FRAME_POINTER ，那么 bt 命令可能會產(chǎn)生錯誤的結(jié)果。

btp 命令將進(jìn)程標(biāo)識作為參數(shù)，并對這個特定進(jìn)程進(jìn)行堆棧回溯。

btc 命令對每個活動 CPU 上正在運行的進(jìn)程執(zhí)行堆棧回溯。它從第一個活動 CPU 開始執(zhí)行 bt ，然后切換到下一個活動 CPU，以此類推。

bta 命令對處于某種特定狀態(tài)的所有進(jìn)程執(zhí)行回溯。若不帶任何參數(shù)，它就對所有進(jìn)程執(zhí)行回溯。可以有選擇地將各種參數(shù)傳遞給該命令。將根據(jù)參數(shù)處理處于特定狀態(tài)的進(jìn)程。選項以及相應(yīng)的狀態(tài)如下：

D：不可中斷狀態(tài)
R：正運行
S：可中斷休眠
T：已跟蹤或已停止
Z：僵死
U：不可運行

這類命令中的每一個都會打印出一大堆信息。請查閱下面的參考資料以獲取這些字段的詳細(xì)文檔。

示例

跟蹤當(dāng)前活動線程的堆棧：

[0]kdb> bt

跟蹤標(biāo)識為 575 的進(jìn)程的堆棧：

[0]kdb> btp 575

其它命令

下面是在內(nèi)核調(diào)試過程中非常有用的其它幾個 KDB 命令。

id 命令以一個地址／符號作為參數(shù)，它對從該地址開始的指令進(jìn)行反匯編。環(huán)境變量 IDCOUNT 確定要顯示多少行輸出。

ss 命令單步執(zhí)行指令然后將控制返回給 KDB。該指令的一個變體是 ssb ，它執(zhí)行從當(dāng)前指令指針地址開始的指令（在屏幕上打印指令），直到它遇到將引起分支轉(zhuǎn)移的指令為止。分支轉(zhuǎn)移指令的典型示例有call 、 return 和 jump 。

go 命令讓系統(tǒng)繼續(xù)正常執(zhí)行。一直執(zhí)行到遇到斷點為止（如果已應(yīng)用了一個斷點的話）。

reboot 命令立刻重新引導(dǎo)系統(tǒng)。它并沒有徹底關(guān)閉系統(tǒng)，因此結(jié)果是不可預(yù)測的。

ll 命令以地址、偏移量和另一個 KDB 命令作為參數(shù)。它對鏈表中的每個元素反復(fù)執(zhí)行作為參數(shù)的這個命令。所執(zhí)行的命令以列表中當(dāng)前元素的地址作為參數(shù)。

示例

反匯編從例程 schedule 開始的指令。所顯示的行數(shù)取決于環(huán)境變量 IDCOUNT ：

[0]kdb> id schedule

執(zhí)行指令直到它遇到分支轉(zhuǎn)移條件（在本例中為指令 jne ）為止：

[0]kdb> ssb0xc0105355 default_idle+0x25: cli0xc0105356 default_idle+0x26: mov 0x14(%edx),%eax0xc0105359 default_idle+0x29: test %eax, %eax0xc010535b default_idle+0x2b: jne 0xc0105361 default_idle+0x31

回頁首

技巧和訣竅

調(diào)試一個問題涉及到：使用調(diào)試器（或任何其它工具）找到問題的根源以及使用源代碼來跟蹤導(dǎo)致問題的根源。單單使用源代碼來確定問題是極其困難的，只有老練的內(nèi)核黑客才有可能做得到。相反，大多數(shù)的新手往往要過多地依靠調(diào)試器來修正錯誤。這種方法可能會產(chǎn)生不正確的問題解決方案。我們擔(dān)心的是這種方法只會修正表面癥狀而不能解決真正的問題。此類錯誤的典型示例是添加錯誤處理代碼以處理 NULL 指針或錯誤的引用，卻沒有查出無效引用的真正原因。

結(jié)合研究代碼和使用調(diào)試工具這兩種方法是識別和修正問題的最佳方案。

調(diào)試器的主要用途是找到錯誤的位置、確認(rèn)癥狀（在某些情況下還有起因）、確定變量的值，以及確定程序是如何出現(xiàn)這種情況的（即，建立調(diào)用堆棧）。有經(jīng)驗的黑客會知道對于某種特定的問題應(yīng)使用哪一個調(diào)試器，并且能迅速地根據(jù)調(diào)試獲取必要的信息，然后繼續(xù)分析代碼以識別起因。

因此，這里為您介紹了一些技巧，以便您能使用 KDB 快速地取得上述結(jié)果。當(dāng)然，要記住，調(diào)試的速度和精確度來自經(jīng)驗、實踐和良好的系統(tǒng)知識（硬件和內(nèi)核內(nèi)部機理等）。

技巧 #1

在 KDB 中，在提示處輸入地址將返回與之最為匹配的符號。這在堆棧分析以及確定全局?jǐn)?shù)據(jù)的地址／值和函數(shù)地址方面極其有用。同樣，輸入符號名則返回其虛擬地址。

示例

表明函數(shù) sys_read 從地址 0xc013db4c 開始：

[0]kdb> 0xc013db4c0xc013db4c = 0xc013db4c (sys_read)

同樣，

同樣，表明 sys_write 位于地址 0xc013dcc8：

[0]kdb> sys_writesys_write = 0xc013dcc8 (sys_write)

這些有助于在分析堆棧時找到全局?jǐn)?shù)據(jù)和函數(shù)地址。

技巧 #2

在編譯帶 KDB 的內(nèi)核時，只要 CONFIG_FRAME_POINTER 選項出現(xiàn)就使用該選項。為此，需要在配置內(nèi)核時選擇“Kernel hacking”部分下面的“Compile the kernel with frame pointers”選項。這確保了幀指針寄存器將被用作幀指針，從而產(chǎn)生正確的回溯。實際上，您可以手工轉(zhuǎn)儲幀指針寄存器的內(nèi)容并跟蹤整個堆棧。例如，在 i386 機器上，%ebp 寄存器可以用來回溯整個堆棧。

例如，在函數(shù) rmqueue() 上執(zhí)行第一個指令后，堆?？瓷先ヮ愃朴谙旅孢@樣：

[0]kdb> md %ebp0xc74c9f38 c74c9f60 c0136c40 000001f0 000000000xc74c9f48 08053328 c0425238 c04253a8 000000000xc74c9f58 000001f0 00000246 c74c9f6c c0136a250xc74c9f68 c74c8000 c74c9f74 c0136d6d c74c9fbc0xc74c9f78 c014fe45 c74c8000 00000000 08053328[0]kdb> 0xc0136c400xc0136c40 = 0xc0136c40 (__alloc_pages +0x44)[0]kdb> 0xc0136a250xc0136a25 = 0xc0136a25 (_alloc_pages +0x19)[0]kdb> 0xc0136d6d0xc0136d6d = 0xc0136d6d (__get_free_pages +0xd)

我們可以看到 rmqueue() 被 __alloc_pages 調(diào)用，后者接下來又被 _alloc_pages 調(diào)用，以此類推。

每一幀的第一個雙字（double word）指向下一幀，這后面緊跟著調(diào)用函數(shù)的地址。因此，跟蹤堆棧就變成一件輕松的工作了。

技巧 #3

go 命令可以有選擇地以一個地址作為參數(shù)。如果您想在某個特定地址處繼續(xù)執(zhí)行，則可以提供該地址作為參數(shù)。另一個辦法是使用 rm 命令修改指令指針寄存器，然后只要輸入 go 。如果您想跳過似乎會引起問題的某個特定指令或一組指令，這就會很有用。但是，請注意，該指令使用不慎會造成嚴(yán)重的問題，系統(tǒng)可能會嚴(yán)重崩潰。

技巧 #4

您可以利用一個名為 defcmd 的有用命令來定義自己的命令集。例如，每當(dāng)遇到斷點時，您可能希望能同時檢查某個特殊變量、檢查某些寄存器的內(nèi)容并轉(zhuǎn)儲堆棧。通常，您必須要輸入一系列命令，以便能同時執(zhí)行所有這些工作。defcmd 允許您定義自己的命令，該命令可以包含一個或多個預(yù)定義的 KDB 命令。然后只需要用一個命令就可以完成所有這三項工作。其語法如下：

[0]kdb> defcmd name "usage" "help"[0]kdb> [defcmd] type the commands here[0]kdb> [defcmd] endefcmd

例如，可以定義一個（簡單的）新命令 hari ，它顯示從地址 0xc000000 開始的一行內(nèi)存、顯示寄存器的內(nèi)容并轉(zhuǎn)儲堆棧：

[0]kdb> defcmd hari "" "no arguments needed"[0]kdb> [defcmd] md 0xc000000 1[0]kdb> [defcmd] rd[0]kdb> [defcmd] md %ebp 1[0]kdb> [defcmd] endefcmd

該命令的輸出會是：

[0]kdb> hari[hari]kdb> md 0xc000000 10xc000000 00000001 f000e816 f000e2c3 f000e816[hari]kdb> rdeax = 0x00000000 ebx = 0xc0105330 ecx = 0xc0466000 edx = 0xc0466000.......[hari]kdb> md %ebp 10xc0467fbc c0467fd0 c01053d2 00000002 000a0200[0]kdb>

技巧 #5

可以使用 bph 和 bpha 命令（假如體系結(jié)構(gòu)支持使用硬件寄存器）來應(yīng)用讀寫斷點。這意味著每當(dāng)從某個特定地址讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入該地址時，我們都可以對此進(jìn)行控制。當(dāng)調(diào)試數(shù)據(jù)／內(nèi)存毀壞問題時這可能會極其方便，在這種情況中您可以用它來識別毀壞的代碼／進(jìn)程。

示例

每當(dāng)將四個字節(jié)寫入地址 0xc0204060 時就進(jìn)入內(nèi)核調(diào)試器：

[0]kdb> bph 0xc0204060 dataw 4

在讀取從 0xc000000 開始的至少兩個字節(jié)的數(shù)據(jù)時進(jìn)入內(nèi)核調(diào)試器：

[0]kdb> bph 0xc000000 datar 2

回頁首

結(jié)束語

對于執(zhí)行內(nèi)核調(diào)試，KDB 是一個方便的且功能強大的工具。它提供了各種選項，并且使我們能夠分析內(nèi)存內(nèi)容和數(shù)據(jù)結(jié)構(gòu)。最妙的是，它不需要用另一臺機器來執(zhí)行調(diào)試。

參考資料

您可以參閱本文在 developerWorks 全球站點上的英文原文.
請在 Documentation/kdb 目錄中查找 KDB 手冊頁。
有關(guān)設(shè)置串行控制臺的信息，請查找 Documentation 目錄中的 serial-console.txt。
請在 SGI 的內(nèi)核調(diào)試器項目網(wǎng)站上下載 KDB。
有關(guān)幾個基于方案的 Linux 調(diào)試技術(shù)的概述，請閱讀“ 掌握 Linux 調(diào)試技術(shù)”（ developerWorks，2002 年 8 月）。
教程“ 編譯 Linux 內(nèi)核”（ developerWorks，2000 年 8 月）讓您完整地了解配置、編譯和安裝內(nèi)核的過程。
IBM AIX 用戶可以在 KDB Kernel Debugger and Command頁面上獲取有關(guān)用于 AIX 的 KDB 的使用幫助。
那些尋求有關(guān)調(diào)試 OS/2 信息的讀者應(yīng)該閱讀 IBM 紅皮書 The OS/2 Debugging Handbook（共四卷）的第 II 卷。
在 developerWorksLinux 專區(qū)中查找更多針對 Linux 開發(fā)人員的參考資料。

關(guān)于作者

Hariprasad Nellitheertha 在印度班加羅爾（Bangalore）的 IBM Linux 技術(shù)中心工作。他目前正在 Linux Change Team 從事修正內(nèi)核和其它 Linux 錯誤的工作。Hari 研究過 OS/2 內(nèi)核和文件系統(tǒng)。他的興趣包括 Linux 內(nèi)核內(nèi)部機理、文件系統(tǒng)和自主計算?？梢酝ㄟ^nharipra@in.ibm.com與 Hari 聯(lián)系。

嵌入式操作系統(tǒng)的調(diào)試

熊競 (jxiong@ict.ac.cn)中科院計算所

簡介：?調(diào)試是開發(fā)過程中必不可少的環(huán)節(jié)，通用的桌面操作系統(tǒng)與嵌入式操作系統(tǒng)在調(diào)試環(huán)境上存在明顯的差別。前者，調(diào)試器與被調(diào)試的程序往往是運行在同一臺機器、相同的操作系統(tǒng)上的兩個進(jìn)程，調(diào)試器進(jìn)程通過操作系統(tǒng)專門提供的調(diào)用接口（早期UNIX系統(tǒng)的ptrace調(diào)用、如今的進(jìn)程文件系統(tǒng)等）控制、訪問被調(diào)試進(jìn)程。后者（又稱為遠(yuǎn)程調(diào)試），為了向系統(tǒng)開發(fā)人員提供靈活、方便的調(diào)試界面，調(diào)試器還是運行于通用桌面操作系統(tǒng)的應(yīng)用程序，被調(diào)試的程序則運行于基于特定硬件平臺的嵌入式操作系統(tǒng)（目標(biāo)操作系統(tǒng)）。這就帶來以下問題：調(diào)試器與被調(diào)試程序如何通信，被調(diào)試程序產(chǎn)生異常如何及時通知調(diào)試器，調(diào)試器如何控制、訪問被調(diào)試程序，調(diào)試器如何識別有關(guān)被調(diào)試程序的多任務(wù)信息并控制某一特定任務(wù)，調(diào)試器如何處理某些與目標(biāo)硬件平臺相關(guān)的信息（如目標(biāo)平臺的寄存器信息、機器代碼的反匯編等）。

我們介紹兩種遠(yuǎn)程調(diào)試的方案，看它們怎樣解決這些問題。

調(diào)試方案

一插樁（stub）

第一種方案是在目標(biāo)操作系統(tǒng)和調(diào)試器內(nèi)分別加入某些功能模塊，二者互通信息來進(jìn)行調(diào)試。上述問題可通過以下途徑解決：

調(diào)試器與被調(diào)試程序的通信
調(diào)試器與目標(biāo)操作系統(tǒng)通過指定通信端口（串口、網(wǎng)卡、并口）遵循遠(yuǎn)程調(diào)試協(xié)議進(jìn)行通信。

被調(diào)試程序產(chǎn)生異常及時通知調(diào)試器
目標(biāo)操作系統(tǒng)的所有異常處理最終都要轉(zhuǎn)向通信模塊，告知調(diào)試器當(dāng)前的異常號；調(diào)試器據(jù)此向用戶顯示被調(diào)試程序產(chǎn)生了哪一類異常。

調(diào)試器控制、訪問被調(diào)試程序
調(diào)試器的這類請求實際上都將轉(zhuǎn)換成對被調(diào)試程序的地址空間或目標(biāo)平臺的某些寄存器的訪問，目標(biāo)操作系統(tǒng)接收到這樣的請求可以直接處理。對于沒有虛擬存儲概念的簡單的嵌入式操作系統(tǒng)而言，完成這些任務(wù)十分容易。

調(diào)試器識別有關(guān)被調(diào)試程序的多任務(wù)信息并控制某一特定任務(wù)
由目標(biāo)操作系統(tǒng)提供相關(guān)接口。目標(biāo)系統(tǒng)根據(jù)調(diào)試器發(fā)送的關(guān)于多任務(wù)的請求，調(diào)用該接口提供相應(yīng)信息或針對某一特定任務(wù)進(jìn)行控制，并返回信息給調(diào)試器。

調(diào)試器處理與目標(biāo)硬件平臺相關(guān)的信息
第2條所述調(diào)試器應(yīng)能根據(jù)異常號識別目標(biāo)平臺產(chǎn)生異常的類型也屬于這一范疇，這類工作完全可以由調(diào)試器獨立完成。支持多種目標(biāo)平臺正是GNUGDB的一大特色。

綜上所述，這一方案需要目標(biāo)操作系統(tǒng)提供支持遠(yuǎn)程調(diào)試協(xié)議的通信模塊（包括簡單的設(shè)備驅(qū)動）和多任務(wù)調(diào)試接口，并改寫異常處理的有關(guān)部分。另外目標(biāo)操作系統(tǒng)還需要定義一個設(shè)置斷點的函數(shù)；因為有的硬件平臺提供能產(chǎn)生特定調(diào)試陷阱異常（debugtrap）的斷點指令以支持調(diào)試（如X86的INT3），而另一些機器沒有類似的指令，就用任意一條不能被解釋執(zhí)行的非法（保留）指令代替。目標(biāo)操作系統(tǒng)添加的這些模塊統(tǒng)稱為"插樁"（見下圖），駐留于ROM中則稱為ROMmonitor。通用操作系統(tǒng)也有具備這類模塊的：編譯運行于Alpha、Sparc或PowerPC平臺的LINUX內(nèi)核時若將kgdb開關(guān)打開，就相當(dāng)于加入了插樁。

圖1

運行于目標(biāo)操作系統(tǒng)的被調(diào)試的應(yīng)用程序要在入口處調(diào)用這個設(shè)置斷點的函數(shù)以產(chǎn)生異常，異常處理程序調(diào)用調(diào)試端口通信模塊，等待主機（host）上的調(diào)試器發(fā)送信息。雙方建立連接后調(diào)試器便等待用戶發(fā)出調(diào)試命令，目標(biāo)系統(tǒng)等待調(diào)試器根據(jù)用戶命令生成的指令。這一過程如下圖所示。

圖2

這一方案的實質(zhì)是用軟件接管目標(biāo)系統(tǒng)的全部異常處理（exceptionhandler）及部分中斷處理，在其中插入調(diào)試端口通信模塊，與主機的調(diào)試器交互。它只能在目標(biāo)操作系統(tǒng)初始化，特別是調(diào)試通信端口初始化完成后才起作用，所以一般只用于調(diào)試運行于目標(biāo)操作系統(tǒng)之上的應(yīng)用程序，而不宜用來調(diào)試目標(biāo)操作系統(tǒng)，特別是無法調(diào)試目標(biāo)操作系統(tǒng)的啟動過程。而且由于它必然要占用目標(biāo)平臺的某個通信端口，該端口的通信程序就無法調(diào)試了。最關(guān)鍵的是它必須改動目標(biāo)操作系統(tǒng)，這一改動即使沒有對操作系統(tǒng)在調(diào)試過程中的表現(xiàn)造成不利影響，至少也會導(dǎo)致目標(biāo)系統(tǒng)多了一個不用于正式發(fā)布的調(diào)試版。

二片上調(diào)試（On Chip Debugging）及EmbeddedPowerPC Background Debug Mode

片上調(diào)試是在處理器內(nèi)部嵌入額外的控制模塊，當(dāng)滿足了一定的觸發(fā)條件時進(jìn)入某種特殊狀態(tài)。在該狀態(tài)下，被調(diào)試程序停止運行，主機的調(diào)試器可以通過處理器外部特設(shè)的通信接口訪問各種資源（寄存器、存儲器等）并執(zhí)行指令。為了實現(xiàn)主機通信端口與目標(biāo)板調(diào)試通信接口各引腳信號的匹配，二者往往通過一塊簡單的信號轉(zhuǎn)換電路板連接（如下圖所示）。內(nèi)嵌的控制模塊以基于微碼的監(jiān)控器（microcodemonitor）或純硬件資源的形式存在，包括一些提供給用戶的接口（如斷點寄存器等）。具體產(chǎn)品有MotorolaCPU16、CPU32、Coldfire系列的BDM（Background Debug Mode），MotorolaPowerPC 5xx、8xx系列的EPBDM（Embedded PowerPC Background DebugMode），IBM、TI的JTAG（Joint Test ActionDebug，IEEE標(biāo)準(zhǔn)），還有OnCE、MPSD等等。下面以MPC860的EPBDM為例介紹片上調(diào)試方式。

圖3

EPBDM的運作相當(dāng)于用處理器內(nèi)嵌的調(diào)試模塊接管中斷及異常處理。用戶通過設(shè)置調(diào)試許可寄存器（debugenableregister）來指定哪些中斷或異常發(fā)生后處理器直接進(jìn)入調(diào)試狀態(tài)，而不是操作系統(tǒng)的處理程序。進(jìn)入調(diào)試狀態(tài)后，內(nèi)嵌調(diào)試模塊向外部調(diào)試通信接口發(fā)出信號，通知一直在通信接口監(jiān)聽的主機調(diào)試器，然后調(diào)試器便可通過調(diào)試模塊使處理器執(zhí)行任意系統(tǒng)指令（相當(dāng)于特權(quán)態(tài)）。所有指令均通過調(diào)試模塊獲取，所有l(wèi)oad/store均直接訪問內(nèi)存，緩存（cache）及存儲管理單元（MMU）均不可用；數(shù)據(jù)寄存器被映射為一個特殊寄存器DPDR，通過mtspr和mfspr指令訪問。調(diào)試器向處理器送rfi(returnfrom interrupt)指令便結(jié)束調(diào)試狀態(tài)，被調(diào)試程序繼續(xù)運行。

與插樁方式的缺點相對應(yīng)，OCD不占用目標(biāo)平臺的通信端口，無需修改目標(biāo)操作系統(tǒng)，能調(diào)試目標(biāo)操作系統(tǒng)的啟動過程，大大方便了系統(tǒng)開發(fā)人員。隨之而來的缺點是軟件工作量的增加：調(diào)試器端除了需補充對目標(biāo)操作系統(tǒng)多任務(wù)的識別、控制等模塊，還要針對使用同一芯片的不同開發(fā)板編寫各類ROM、RAM的初始化程序。

下面就以調(diào)試運行于MPC860的LINUX為例，說明用OCD方式調(diào)試OS啟動的某些關(guān)鍵細(xì)節(jié)。

首先，LINUX內(nèi)核模塊以壓縮后的zImage形式駐留于目標(biāo)板的ROM，目標(biāo)板上電后先運行ROM中指定位置的程序?qū)?nèi)核移至RAM并解壓縮，然后再跳轉(zhuǎn)至內(nèi)核入口處運行。要調(diào)試內(nèi)核，必須在上電后ROM中的指令執(zhí)行之前獲得系統(tǒng)的控制權(quán)，即進(jìn)入調(diào)試狀態(tài)、設(shè)斷點，這樣才能開展調(diào)試過程。MPC860的EPBDM提供了這一手段。

MPC860沒有類似X86的INT3那樣能產(chǎn)生特定調(diào)試陷阱異常的指令，而操作系統(tǒng)內(nèi)核往往具有針對非法指令的異常處理；為了使對內(nèi)核正常運行的干擾降至最小，調(diào)試時應(yīng)盡量設(shè)置硬件斷點，而不是利用非法指令產(chǎn)生異常的"軟"斷點。

LINUX實現(xiàn)了虛存管理，嵌入式LINUX往往也有這一功能。地址空間從實到虛的轉(zhuǎn)換在內(nèi)核啟動過程中便完成了，不論調(diào)試內(nèi)核還是應(yīng)用程序，調(diào)試器都無法回避對目標(biāo)系統(tǒng)虛地址空間的訪問，否則斷點命中時根本無法根據(jù)程序計數(shù)器的虛地址顯示當(dāng)前指令，更不用說訪問變量了。由于調(diào)試狀態(tài)下轉(zhuǎn)換旁視緩沖器（TranslationLookasideBuffer）無法利用，只能仿照LINUX內(nèi)核TLB失效時的異常處理程序，根據(jù)虛地址中的頁表索引位訪問特定寄存器查兩級頁表得出物理頁面號，從而完成虛實地址的轉(zhuǎn)換。MPC860采用哈佛結(jié)構(gòu)（Harvardarchitecture），指令和數(shù)據(jù)緩存分離設(shè)置（因為程序的指令段和數(shù)據(jù)段是分離的，這種結(jié)構(gòu)可以消除取指令和訪問數(shù)據(jù)之間的沖突），二者的TLB也分離設(shè)置；然而TLB失效時查找頁表計算物理地址的過程是相同的，因為頁表只有一個，不存在指令、數(shù)據(jù)分離的問題。虛實地址轉(zhuǎn)換這一任務(wù)雖然完全落在了調(diào)試器一方，由于上述原因，再加上調(diào)試對象是嵌入式系統(tǒng)，一般不會有外存設(shè)備，不必考慮內(nèi)存訪問缺頁的情況，所以增加的工作量并不大。

回頁首

深入話題

傳統(tǒng)的調(diào)試方法可概括為如下過程：設(shè)斷點--程序暫停--觀察程序狀態(tài)--繼續(xù)運行。被調(diào)試的如果是實時系統(tǒng)，即使調(diào)試器支持批處理命令避免了用戶輸入命令、觀察結(jié)果帶來的延遲，它與目標(biāo)系統(tǒng)之間的通信也完全可能錯過對目標(biāo)平臺外設(shè)信號的響應(yīng)。于是，針對某些調(diào)試器（如GDB）提供的監(jiān)視點（tracepoint）這一特殊調(diào)試手段，目標(biāo)方的插樁在原有的基礎(chǔ)上被改進(jìn)，稱為代理（agent）。調(diào)試時用戶首先在調(diào)試器設(shè)置監(jiān)視點，以源代碼表達(dá)式的形式指定感興趣的對象名。為了減少代理解析表達(dá)式的工作，調(diào)試器將表達(dá)式轉(zhuǎn)換為簡單的字節(jié)碼，傳送至代理。程序運行后命中監(jiān)視點、喚醒代理，代理根據(jù)字節(jié)碼記錄用戶所需數(shù)據(jù)存入特定緩沖區(qū)（不僅僅是表達(dá)式的最終結(jié)果，還有中間結(jié)果），令程序繼續(xù)運行；這一步驟無需與調(diào)試器通信。當(dāng)調(diào)試器再度得到控制時，就可以發(fā)出命令，向代理查詢歷次監(jiān)視記錄。較之于插樁，代理增加了對接受到的字節(jié)碼的分析模塊，相應(yīng)的目標(biāo)代碼體積只有大約3K字節(jié)；當(dāng)然，監(jiān)視記錄緩沖區(qū)也要占用目標(biāo)平臺的存儲空間，不過緩沖區(qū)的大小可在代理生成時由用戶決定。總之，這一改進(jìn)以有限的目標(biāo)系統(tǒng)資源為代價，為實時監(jiān)視提供了一個低成本的可行方案。

調(diào)試并不僅僅意味著設(shè)斷點--程序暫停--觀察--繼續(xù)這一過程，往往還需要profiling、跟蹤（trace）等多種手段，而現(xiàn)代微處理器的技術(shù)進(jìn)步卻為這些調(diào)試手段的實行帶來了困難。以跟蹤為例，其目的無非是記錄真實的程序運行流；可現(xiàn)代處理器指令緩存都集成于芯片內(nèi)（RISC處理器尤為如此），運行指令時"取指"這一操作大多在芯片內(nèi)部針對指令緩存進(jìn)行，芯片外部總線上只能觀察到多條指令的預(yù)取（prefetch），預(yù)取的指令并不一定執(zhí)行（由于跳轉(zhuǎn)等原因）；另外，指令往往經(jīng)過動態(tài)調(diào)度后在流水線中亂序執(zhí)行，如何再現(xiàn)其原始順序也是個問題。解決方案大致有以下三種：

有的處理器除了正常運行外，還能以串行方式運行，所有的取指周期都可呈現(xiàn)于片外總線（相當(dāng)于禁用緩存與流水線）。這樣一來，跟蹤容易多了，處理器性能也大大降低了，根本不適用于實時要求嚴(yán)格的系統(tǒng)。

編譯器自動在指定的分支及函數(shù)出入口插入對特定內(nèi)存區(qū)域的寫指令（與gprof等profiling工具采用的手段類似），它們都是不通過緩存而直接向內(nèi)存寫的，這就能反映于芯片外總線從而被外接的邏輯分析儀記錄，最終由主機端的調(diào)試工具分析并結(jié)合符號表重構(gòu)程序流。這種方法雖被廣泛使用，但畢竟是干擾式的（intrusive），對系統(tǒng)性能也有影響。

像上文所述的片上調(diào)試那樣，也有處理器在片內(nèi)附加了跟蹤電路，收集程序流運行時的"不連貫"（discontinuities）信息（分支和異常處理的跳轉(zhuǎn)目的及源地址等），壓縮后送至特定端口，再由邏輯分析儀捕獲送至主機端調(diào)試工具重構(gòu)程序流。該方案對系統(tǒng)性能影響最小。

總之，處理器廠家提供集成于片內(nèi)的調(diào)試電路為高檔嵌入式系統(tǒng)開發(fā)提供各種非干擾式的調(diào)試手段早已是大勢所趨。為了解決該領(lǐng)域標(biāo)準(zhǔn)化的需要，一些處理器廠家、工具開發(fā)公司和儀器制造商于1998年組成了Nexus5001Forum，這是一個旨在為嵌入式控制應(yīng)用產(chǎn)生和定義嵌入式處理器調(diào)試接口標(biāo)準(zhǔn)的聯(lián)合組織，以前的名稱是GlobalEmbedded Processor Debug Interface StandardConsortium（全球嵌入式處理器調(diào)試接口標(biāo)準(zhǔn)協(xié)會）。Nexus現(xiàn)在有24個成員單位，包括創(chuàng)始成員Motorola、InfineonTechnologies、日立、ETAS和HP等公司。該組織首先處理的是汽車動力應(yīng)用所需要的調(diào)試，現(xiàn)在已發(fā)展成為調(diào)試數(shù)據(jù)通信、無線系統(tǒng)和其他實時嵌入式應(yīng)用的通用接口。

參考資料

MPC860 PowerQUICC User's Manual MOTOROLA
http://www.vas-gmbh.de/software/mpcbdm/
http://www.metrowerks.com/tools/documentation/embedded/zenofbdm
http://www.redhat.com/support/wpapers/cygnus_heinsenberg/trace.html
http://www.ednmag.com/reg/2000/05112000/10tt.htm

關(guān)于作者

熊競，任職于中科院計算所嵌入式系統(tǒng)軟件組。主要從事開發(fā)嵌入式操作系統(tǒng)的仿真器、調(diào)試器及集成開發(fā)環(huán)境。您可以通過電子郵件jxiong@ict.ac.cn與他聯(lián)系。

總結(jié)

以上是生活随笔為你收集整理的Linux 内核调试器调试指南的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。