僵尸进程(转)
前面的文章中,我們已經(jīng)了解了父進(jìn)程和子進(jìn) 程的概念,并已經(jīng)掌握了系統(tǒng)調(diào)用exit的用法,但可能很少有人意識(shí)到,在一個(gè)進(jìn)程調(diào)用了exit之后,該進(jìn)程并非馬上就消失掉,而是留下一個(gè)稱為僵尸進(jìn) 程(zombie)的數(shù)據(jù)結(jié)構(gòu)。在linux進(jìn)程的5種狀態(tài)中,僵尸進(jìn)程是非常特殊的一種,它已經(jīng)放棄了幾乎所有內(nèi)存空間,沒(méi)有任何可執(zhí)行代碼,也不能被 調(diào)度,僅僅在進(jìn)程列表中保留一個(gè)位置,記載該進(jìn)程的退出狀態(tài)等信息供其他進(jìn)程收集,除此之外,僵尸進(jìn)程不再占有任何內(nèi)存空間。從這點(diǎn)來(lái)看,僵尸進(jìn)程雖然有 一個(gè)很酷的名字,但它的影響力遠(yuǎn)遠(yuǎn)抵不上那些真正的僵尸兄弟,真正的僵尸總能令人感到恐怖,而僵尸進(jìn)程卻除了留下一些供人憑吊的信息,對(duì)系統(tǒng)毫無(wú)作用。
也許讀者們還對(duì)這個(gè)新概念比較好奇,那就讓我們來(lái)看一眼linux里的僵尸進(jìn)程究竟長(zhǎng)什么樣子。
當(dāng)一個(gè)進(jìn)程已退出,但其父進(jìn)程還沒(méi)有調(diào)用系統(tǒng)調(diào)用wait(稍后介紹)對(duì)其進(jìn)行收集之前的這段時(shí)間里,它會(huì)一直保持僵尸狀態(tài),利用這個(gè)特點(diǎn),我們來(lái)寫(xiě)一個(gè)簡(jiǎn)單的小程序:
/* zombie.c */
#include
#include
main()
{
pid_t pid;
pid=fork();
if(pid<0) /* 如果出錯(cuò) */
printf("error occurred!n");
else if(pid==0) /* 如果是子進(jìn)程 */
exit(0);
else /* 如果是父進(jìn)程 */
sleep(60); /* 休眠60秒,這段時(shí)間里,父進(jìn)程什么也干不了 */
wait(null); /* 收集僵尸進(jìn)程 */
}
sleep的作用是讓進(jìn)程休眠指定的秒數(shù),在這60秒內(nèi),子進(jìn)程已經(jīng)退出,而父進(jìn)程正忙著睡覺(jué),不可能對(duì)它進(jìn)行收集,這樣,我們就能保持子進(jìn)程60秒的僵尸狀態(tài)。
編譯這個(gè)程序:
$ cc zombie.c -o zombie
后臺(tái)運(yùn)行程序,以使我們能夠執(zhí)行下一條命令:
$ ./zombie &
[1] 1577
列一下系統(tǒng)內(nèi)的進(jìn)程:
$ ps -ax
... ...
1177 pts/0 s 0:00 -bash
1577 pts/0 s 0:00 ./zombie
1578 pts/0 z 0:00 [zombie ]
1579 pts/0 r 0:00 ps -ax
看到中間的“z”了嗎?那就是僵尸進(jìn)程的標(biāo)志,它表示1578號(hào)進(jìn)程現(xiàn)在就是一個(gè)僵尸進(jìn)程。
我們已經(jīng)學(xué)習(xí)了系統(tǒng)調(diào)用exit,它的作用是使進(jìn)程退出,但也僅僅限于將一個(gè)正常的進(jìn)程變成一個(gè)僵尸進(jìn)程,并不能將其完全銷毀。僵尸進(jìn)程雖然對(duì)其他進(jìn)程 幾乎沒(méi)有什么影響,不占用cpu時(shí)間,消耗的內(nèi)存也幾乎可以忽略不計(jì),但有它在那里呆著,還是讓人覺(jué)得心里很不舒服。而且linux系統(tǒng)中進(jìn)程數(shù)目是有限 制的,在一些特殊的情況下,如果存在太多的僵尸進(jìn)程,也會(huì)影響到新進(jìn)程的產(chǎn)生。那么,我們?cè)撊绾蝸?lái)消滅這些僵尸進(jìn)程呢?
先來(lái)了解 一下僵尸進(jìn)程的來(lái)由,我們知道,linux和unix總有著剪不斷理還亂的親緣關(guān)系,僵尸進(jìn)程的概念也是從unix上繼承來(lái)的,而unix的先驅(qū)們?cè)O(shè)計(jì)這 個(gè)東西并非是因?yàn)殚e來(lái)無(wú)聊想煩煩其他的程序員。僵尸進(jìn)程中保存著很多對(duì)程序員和系統(tǒng)管理員非常重要的信息,首先,這個(gè)進(jìn)程是怎么死亡的?是正常退出呢,還 是出現(xiàn)了錯(cuò)誤,還是被其它進(jìn)程強(qiáng)迫退出的?其次,這個(gè)進(jìn)程占用的總系統(tǒng)cpu時(shí)間和總用戶cpu時(shí)間分別是多少?發(fā)生頁(yè)錯(cuò)誤的數(shù)目和收到信號(hào)的數(shù)目。這些 信息都被存儲(chǔ)在僵尸進(jìn)程中,試想如果沒(méi)有僵尸進(jìn)程,進(jìn)程一退出,所有與之相關(guān)的信息都立刻歸于無(wú)形,而此時(shí)程序員或系統(tǒng)管理員需要用到,就只好干瞪眼了。
那么,我們?nèi)绾问占@些信息,并終結(jié)這些僵尸進(jìn)程呢?就要靠我們下面要講到的waitpid調(diào)用和wait調(diào)用。這兩者的作用都是收集僵尸進(jìn)程留下的信息,同時(shí)使這個(gè)進(jìn)程徹底消失。下面就對(duì)這兩個(gè)調(diào)用分別作詳細(xì)介紹。
wait
簡(jiǎn)介
wait的函數(shù)原型是:
#include /* 提供類型pid_t的定義 */
#include
pid_t wait(int *status)
進(jìn)程一旦調(diào)用了wait,就立即阻塞自己,由wait自動(dòng)分析是否當(dāng)前進(jìn)程的某個(gè)子進(jìn)程已經(jīng)退出,如果讓它找到了這樣一個(gè)已經(jīng)變成僵尸的子進(jìn) 程,wait就會(huì)收集這個(gè)子進(jìn)程的信息,并把它徹底銷毀后返回;如果沒(méi)有找到這樣一個(gè)子進(jìn)程,wait就會(huì)一直阻塞在這里,直到有一個(gè)出現(xiàn)為止。
參數(shù)status用來(lái)保存被收集進(jìn)程退出時(shí)的一些狀態(tài),它是一個(gè)指向int類型的指針。但如果我們對(duì)這個(gè)子進(jìn)程是如何死掉的毫不在意,只想把這個(gè)僵尸進(jìn)程消滅掉,(事實(shí)上絕大多數(shù)情況下,我們都會(huì)這樣想),我們就可以設(shè)定這個(gè)參數(shù)為null,就象下面這樣:
pid = wait(null);
如果成功,wait會(huì)返回被收集的子進(jìn)程的進(jìn)程id,如果調(diào)用進(jìn)程沒(méi)有子進(jìn)程,調(diào)用就會(huì)失敗,此時(shí)wait返回-1,同時(shí)errno被置為echild。
實(shí)戰(zhàn)
下面就讓我們用一個(gè)例子來(lái)實(shí)戰(zhàn)應(yīng)用一下wait調(diào)用,程序中用到了系統(tǒng)調(diào)用fork,如果你對(duì)此不大熟悉或已經(jīng)忘記了,請(qǐng)參考上一篇文章進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用(1)。
/* wait1.c */
#include
#include
#include
#include
main()
{
pid_t pc,pr;
pc=fork();
if(pc<0) /* 如果出錯(cuò) */
printf("error ocurred!n");
else if(pc==0){ /* 如果是子進(jìn)程 */
printf("this is child process with pid of %dn",getpid());
sleep(10); /* 睡眠10秒鐘 */
}
else{ /* 如果是父進(jìn)程 */
pr=wait(null); /* 在這里等待 */
printf("i catched a child process with pid of %dn"),pr);
}
exit(0);
}
編譯并運(yùn)行:
$ cc wait1.c -o wait1
$ ./wait1
this is child process with pid of 1508
i catched a child process with pid of 1508
可以明顯注意到,在第2行結(jié)果打印出來(lái)前有10秒鐘的等待時(shí)間,這就是我們?cè)O(shè)定的讓子進(jìn)程睡眠的時(shí)間,只有子進(jìn)程從睡眠中蘇醒過(guò)來(lái),它才能正常退出,也 就才能被父進(jìn)程捕捉到。其實(shí)這里我們不管設(shè)定子進(jìn)程睡眠的時(shí)間有多長(zhǎng),父進(jìn)程都會(huì)一直等待下去,讀者如果有興趣的話,可以試著自己修改一下這個(gè)數(shù)值,看看 會(huì)出現(xiàn)怎樣的結(jié)果。
參數(shù)status
如果參數(shù)status的值不是null,wait就會(huì)把子進(jìn)程退出 時(shí)的狀態(tài)取出并存入其中,這是一個(gè)整數(shù)值(int),指出了子進(jìn)程是正常退出還是被非正常結(jié)束的(一個(gè)進(jìn)程也可以被其他進(jìn)程用信號(hào)結(jié)束,我們將在以后的文 章中介紹),以及正常結(jié)束時(shí)的返回值,或被哪一個(gè)信號(hào)結(jié)束的等信息。由于這些信息被存放在一個(gè)整數(shù)的不同二進(jìn)制位中,所以用常規(guī)的方法讀取會(huì)非常麻煩,人 們就設(shè)計(jì)了一套專門的宏(macro)來(lái)完成這項(xiàng)工作,下面我們來(lái)學(xué)習(xí)一下其中最常用的兩個(gè):
● wifexited(status)
這個(gè)宏用來(lái)指出子進(jìn)程是否為正常退出的,如果是,它會(huì)返回一個(gè)非零值。
(請(qǐng)注意,雖然名字一樣,這里的參數(shù)status并不同于wait唯一的參數(shù)--指向整數(shù)的指針status,而是那個(gè)指針?biāo)赶虻恼麛?shù),切記不要搞混了。)
● wexitstatus(status)
當(dāng)wifexited返回非零值時(shí),我們可以用這個(gè)宏來(lái)提取子進(jìn)程的返回值,如果子進(jìn)程調(diào)用exit(5)退 出,wexitstatus(status)就會(huì)返回5;如果子進(jìn)程調(diào)用exit(7),wexitstatus(status)就會(huì)返回7。請(qǐng)注意,如 果進(jìn)程不是正常退出的,也就是說(shuō),wifexited返回0,這個(gè)值就毫無(wú)意義。
下面通過(guò)例子來(lái)實(shí)戰(zhàn)一下我們剛剛學(xué)到的內(nèi)容:
/* wait2.c */
#include
#include
#include
main()
{
int status;
pid_t pc,pr;
pc=fork();
if(pc<0) /* 如果出錯(cuò) */
printf("error ocurred!n");
else if(pc==0){ /* 子進(jìn)程 */
printf("this is child process with pid of %d.n",getpid());
exit(3); /* 子進(jìn)程返回3 */
}
else{ /* 父進(jìn)程 */
pr=wait(&status);
if(wifexited(status)){ /* 如果wifexited返回非零值 */
printf("the child process %d exit normally.n",pr);
printf("the return code is %d.n",wexitstatus(status));
}else /* 如果wifexited返回零 */
printf("the child process %d exit abnormally.n",pr);
}
}
編譯并運(yùn)行:
$ cc wait2.c -o wait2
$ ./wait2
this is child process with pid of 1538.
the child process 1538 exit normally.
the return code is 3.
父進(jìn)程準(zhǔn)確捕捉到了子進(jìn)程的返回值3,并把它打印了出來(lái)。
當(dāng)然,處理進(jìn)程退出狀態(tài)的宏并不止這兩個(gè),但它們當(dāng)中的絕大部分在平時(shí)的編程中很少用到,就也不在這里浪費(fèi)篇幅介紹了,有興趣的讀者可以自己參閱linux man pages去了解它們的用法。
進(jìn)程同步
有時(shí)候,父進(jìn)程要求子進(jìn)程的運(yùn)算結(jié)果進(jìn)行下一步的運(yùn)算,或者子進(jìn)程的功能是為父進(jìn)程提供了下一步執(zhí)行的先決條件(如:子進(jìn)程建立文件,而父進(jìn)程寫(xiě)入數(shù) 據(jù)),此時(shí)父進(jìn)程就必須在某一個(gè)位置停下來(lái),等待子進(jìn)程運(yùn)行結(jié)束,而如果父進(jìn)程不等待而直接執(zhí)行下去的話,可以想見(jiàn),會(huì)出現(xiàn)極大的混亂。這種情況稱為進(jìn)程 之間的同步,更準(zhǔn)確地說(shuō),這是進(jìn)程同步的一種特例。進(jìn)程同步就是要協(xié)調(diào)好2個(gè)以上的進(jìn)程,使之以安排好地次序依次執(zhí)行。解決進(jìn)程同步問(wèn)題有更通用的方法, 我們將在以后介紹,但對(duì)于我們假設(shè)的這種情況,則完全可以用wait系統(tǒng)調(diào)用簡(jiǎn)單的予以解決。請(qǐng)看下面這段程序:
#include
#include
main()
{
pid_t pc, pr;
int status;
pc=fork();
if(pc<0)
printf("error occured on forking.n");
else if(pc==0){
/* 子進(jìn)程的工作 */
exit(0);
}else{
/* 父進(jìn)程的工作 */
pr=wait(&status);
/* 利用子進(jìn)程的結(jié)果 */
}
}
這段程序只是個(gè)例子,不能真正拿來(lái)執(zhí)行,但它卻說(shuō)明了一些問(wèn)題,首先,當(dāng)fork調(diào)用成功后,父子進(jìn)程各做各的事情,但當(dāng)父進(jìn)程的工作告一段落,需要用 到子進(jìn)程的結(jié)果時(shí),它就停下來(lái)調(diào)用wait,一直等到子進(jìn)程運(yùn)行結(jié)束,然后利用子進(jìn)程的結(jié)果繼續(xù)執(zhí)行,這樣就圓滿地解決了我們提出的進(jìn)程同步問(wèn)題。
waitpid
簡(jiǎn)介
waitpid系統(tǒng)調(diào)用在linux函數(shù)庫(kù)中的原型是:
#include /* 提供類型pid_t的定義 */
#include
pid_t waitpid(pid_t pid,int *status,int options)
從本質(zhì)上講,系統(tǒng)調(diào)用waitpid和wait的作用是完全相同的,但waitpid多出了兩個(gè)可由用戶控制的參數(shù)pid和options,從而為我們編程提供了另一種更靈活的方式。下面我們就來(lái)詳細(xì)介紹一下這兩個(gè)參數(shù):
● pid
從參數(shù)的名字pid和類型pid_t中就可以看出,這里需要的是一個(gè)進(jìn)程id。但當(dāng)pid取不同的值時(shí),在這里有不同的意義。
pid>0時(shí),只等待進(jìn)程id等于pid的子進(jìn)程,不管其它已經(jīng)有多少子進(jìn)程運(yùn)行結(jié)束退出了,只要指定的子進(jìn)程還沒(méi)有結(jié)束,waitpid就會(huì)一直等下去。
pid=-1時(shí),等待任何一個(gè)子進(jìn)程退出,沒(méi)有任何限制,此時(shí)waitpid和wait的作用一模一樣。
pid=0時(shí),等待同一個(gè)進(jìn)程組中的任何子進(jìn)程,如果子進(jìn)程已經(jīng)加入了別的進(jìn)程組,waitpid不會(huì)對(duì)它做任何理睬。
pid<-1時(shí),等待一個(gè)指定進(jìn)程組中的任何子進(jìn)程,這個(gè)進(jìn)程組的id等于pid的絕對(duì)值。
● options
options提供了一些額外的選項(xiàng)來(lái)控制waitpid,目前在linux中只支持wnohang和wuntraced兩個(gè)選項(xiàng),這是兩個(gè)常數(shù),可以用"|"運(yùn)算符把它們連接起來(lái)使用,比如:
ret=waitpid(-1,null,wnohang | wuntraced);
如果我們不想使用它們,也可以把options設(shè)為0,如:
ret=waitpid(-1,null,0);
如果使用了wnohang參數(shù)調(diào)用waitpid,即使沒(méi)有子進(jìn)程退出,它也會(huì)立即返回,不會(huì)像wait那樣永遠(yuǎn)等下去。
而wuntraced參數(shù),由于涉及到一些跟蹤調(diào)試方面的知識(shí),加之極少用到,這里就不多費(fèi)筆墨了,有興趣的讀者可以自行查閱相關(guān)材料。
看到這里,聰明的讀者可能已經(jīng)看出端倪了--wait不就是經(jīng)過(guò)包裝的waitpid嗎?沒(méi)錯(cuò),察看<內(nèi)核源碼目錄>/include/unistd.h文件349-352行就會(huì)發(fā)現(xiàn)以下程序段:
static inline pid_t wait(int * wait_stat)
{
return waitpid(-1,wait_stat,0);
}
返回值和錯(cuò)誤
waitpid的返回值比wait稍微復(fù)雜一些,一共有3種情況:
● 當(dāng)正常返回的時(shí)候,waitpid返回收集到的子進(jìn)程的進(jìn)程id;
● 如果設(shè)置了選項(xiàng)wnohang,而調(diào)用中waitpid發(fā)現(xiàn)沒(méi)有已退出的子進(jìn)程可收集,則返回0;
● 如果調(diào)用中出錯(cuò),則返回-1,這時(shí)errno會(huì)被設(shè)置成相應(yīng)的值以指示錯(cuò)誤所在;
當(dāng)pid所指示的子進(jìn)程不存在,或此進(jìn)程存在,但不是調(diào)用進(jìn)程的子進(jìn)程,waitpid就會(huì)出錯(cuò)返回,這時(shí)errno被設(shè)置為echild;
/* waitpid.c */
#include
#include
#include
main()
{
pid_t pc, pr;
pc=fork();
if(pc<0) /* 如果fork出錯(cuò) */
printf("error occured on forking.n");
else if(pc==0){ /* 如果是子進(jìn)程 */
sleep(10); /* 睡眠10秒 */
exit(0);
}
/* 如果是父進(jìn)程 */
do{
pr=waitpid(pc, null, wnohang); /* 使用了wnohang參數(shù),waitpid不會(huì)在這里等待 */
if(pr==0){ /* 如果沒(méi)有收集到子進(jìn)程 */
printf("no child exitedn");
sleep(1);
}
}while(pr==0); /* 沒(méi)有收集到子進(jìn)程,就回去繼續(xù)嘗試 */
if(pr==pc)
printf("successfully get child %dn", pr);
else
printf("some error occuredn");
}
編譯并運(yùn)行:
$ cc waitpid.c -o waitpid
$ ./waitpid
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
successfully get child 1526
父進(jìn)程經(jīng)過(guò)10次失敗的嘗試之后,終于收集到了退出的子進(jìn)程。
因?yàn)檫@只是一個(gè)例子程序,不便寫(xiě)得太復(fù)雜,所以我們就讓父進(jìn)程和子進(jìn)程分別睡眠了10秒鐘和1秒鐘,代表它們分別作了10秒鐘和1秒鐘的工作。父子進(jìn)程都有工作要做,父進(jìn)程利用工作的簡(jiǎn)短間歇察看子進(jìn)程的是否退出,如退出就收集它。
也許有不少讀者從本系列文章一推出就開(kāi)始讀,一直到這里還有一個(gè)很大的疑惑:既然所有新進(jìn)程都是由fork產(chǎn)生的,而且由fork產(chǎn)生的子進(jìn)程和父進(jìn)程 幾乎完全一樣,那豈不是意味著系統(tǒng)中所有的進(jìn)程都應(yīng)該一模一樣了嗎?而且,就我們的常識(shí)來(lái)說(shuō),當(dāng)我們執(zhí)行一個(gè)程序的時(shí)候,新產(chǎn)生的進(jìn)程的內(nèi)容應(yīng)就是程序的 內(nèi)容才對(duì)。是我們理解錯(cuò)了嗎?顯然不是,要解決這些疑惑,就必須提到我們下面要介紹的exec系統(tǒng)調(diào)用。
簡(jiǎn)介
說(shuō)是exec系統(tǒng)調(diào)用,實(shí)際上在linux中,并不存在一個(gè)exec()的函數(shù)形式,exec指的是一組函數(shù),一共有6個(gè),分別是:
#include
int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg, ..., char *const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);
int execve(const char *path, char *const argv[], char *const envp[]);
其中只有execve是真正意義上的系統(tǒng)調(diào)用,其它都是在此基礎(chǔ)上經(jīng)過(guò)包裝的庫(kù)函數(shù)。
exec函數(shù)族的作用是根據(jù)指定的文件名找到可執(zhí)行文件,并用它來(lái)取代調(diào)用進(jìn)程的內(nèi)容,換句話說(shuō),就是在調(diào)用進(jìn)程內(nèi)部執(zhí)行一個(gè)可執(zhí)行文件。這里的可執(zhí)行文件既可以是二進(jìn)制文件,也可以是任何linux下可執(zhí)行的腳本文件。
與一般情況不同,exec函數(shù)族的函數(shù)執(zhí)行成功后不會(huì)返回,因?yàn)檎{(diào)用進(jìn)程的實(shí)體,包括代碼段,數(shù)據(jù)段和堆棧等都已經(jīng)被新的內(nèi)容取代,只留下進(jìn)程id等一 些表面上的信息仍保持原樣,頗有些神似"三十六計(jì)"中的"金蟬脫殼"。看上去還是舊的軀殼,卻已經(jīng)注入了新的靈魂。只有調(diào)用失敗了,它們才會(huì)返回一個(gè) -1,從原程序的調(diào)用點(diǎn)接著往下執(zhí)行。
現(xiàn)在我們應(yīng)該明白了,linux下是如何執(zhí)行新程序的,每當(dāng)有進(jìn)程認(rèn)為自己不能為系統(tǒng)和擁 護(hù)做出任何貢獻(xiàn)了,他就可以發(fā)揮最后一點(diǎn)余熱,調(diào)用任何一個(gè)exec,讓自己以新的面貌重生;或者,更普遍的情況是,如果一個(gè)進(jìn)程想執(zhí)行另一個(gè)程序,它就 可以fork出一個(gè)新進(jìn)程,然后調(diào)用任何一個(gè)exec,這樣看起來(lái)就好像通過(guò)執(zhí)行應(yīng)用程序而產(chǎn)生了一個(gè)新進(jìn)程一樣。
事實(shí)上第二種 情況被應(yīng)用得如此普遍,以至于linux專門為其作了優(yōu)化,我們已經(jīng)知道,fork會(huì)將調(diào)用進(jìn)程的所有內(nèi)容原封不動(dòng)的拷貝到新產(chǎn)生的子進(jìn)程中去,這些拷貝 的動(dòng)作很消耗時(shí)間,而如果fork完之后我們馬上就調(diào)用exec,這些辛辛苦苦拷貝來(lái)的東西又會(huì)被立刻抹掉,這看起來(lái)非常不劃算,于是人們?cè)O(shè)計(jì)了一種"寫(xiě) 時(shí)拷貝(copy-on-write)"技術(shù),使得fork結(jié)束后并不立刻復(fù)制父進(jìn)程的內(nèi)容,而是到了真正實(shí)用的時(shí)候才復(fù)制,這樣如果下一條語(yǔ)句是 exec,它就不會(huì)白白作無(wú)用功了,也就提高了效率。
稍稍深入
上面6條函數(shù)看起來(lái)似乎很復(fù)雜,但實(shí)際上無(wú)論是作用還是用法都非常相似,只有很微小的差別。在學(xué)習(xí)它們之前,先來(lái)了解一下我們習(xí)以為常的main函數(shù)。
下面這個(gè)main函數(shù)的形式可能有些出乎我們的意料:
int main(int argc, char *argv[], char *envp[])
它可能與絕大多數(shù)教科書(shū)上描述的都不一樣,但實(shí)際上,這才是main函數(shù)真正完整的形式。
參數(shù)argc指出了運(yùn)行該程序時(shí)命令行參數(shù)的個(gè)數(shù),數(shù)組argv存放了所有的命令行參數(shù),數(shù)組envp存放了所有的環(huán)境變量。環(huán)境變量指的是一組值,從 用戶登錄后就一直存在,很多應(yīng)用程序需要依靠它來(lái)確定系統(tǒng)的一些細(xì)節(jié),我們最常見(jiàn)的環(huán)境變量是path,它指出了應(yīng)到哪里去搜索應(yīng)用程序,如 /bin;home也是比較常見(jiàn)的環(huán)境變量,它指出了我們?cè)谙到y(tǒng)中的個(gè)人目錄。環(huán)境變量一般以字符串"xxx=xxx"的形式存在,xxx表示變量 名,xxx表示變量的值。
值得一提的是,argv數(shù)組和envp數(shù)組存放的都是指向字符串的指針,這兩個(gè)數(shù)組都以一個(gè)null元素表示數(shù)組的結(jié)尾。
我們可以通過(guò)以下這個(gè)程序來(lái)觀看傳到argc、argv和envp里的都是什么東西:
/* main.c */
int main(int argc, char *argv[], char *envp[])
{
printf("n### argc ###n%dn", argc);
printf("n### argv ###n");
while(*argv)
printf("%sn", *(argv++));
printf("n### envp ###n");
while(*envp)
printf("%sn", *(envp++));
return 0;
}
編譯它:
$ cc main.c -o main
運(yùn)行時(shí),我們故意加幾個(gè)沒(méi)有任何作用的命令行參數(shù):
$ ./main -xx 000
### argc ###
3
### argv ###
./main
-xx
000
### envp ###
pwd=/home/lei
remotehost=dt.laser.com
hostname=localhost.localdomain
qtdir=/usr/lib/qt-2.3.1
lessopen=|/usr/bin/lesspipe.sh %s
kdedir=/usr
user=lei
ls_colors=
machtype=i386-redhat-linux-gnu
mail=/var/spool/mail/lei
inputrc=/etc/inputrc
lang=en_us
logname=lei
shlvl=1
shell=/bin/bash
hosttype=i386
ostype=linux-gnu
histsize=1000
term=ansi
home=/home/lei
path=/usr/local/bin:/bin:/usr/bin:/usr/x11r6/bin:/home/lei/bin
_=./main
我們看到,程序?qū)ⅰ?/main”作為第1個(gè)命令行參數(shù),所以我們一共有3個(gè)命令行參數(shù)。這可能與大家平時(shí)習(xí)慣的說(shuō)法有些不同,小心不要搞錯(cuò)了。
現(xiàn)在回過(guò)頭來(lái)看一下exec函數(shù)族,先把注意力集中在execve上:
int execve(const char *path, char *const argv[], char *const envp[]);
對(duì)比一下main函數(shù)的完整形式,看出問(wèn)題了嗎?是的,這兩個(gè)函數(shù)里的argv和envp是完全一一對(duì)應(yīng)的關(guān)系。execve第1個(gè)參數(shù)path是被執(zhí) 行應(yīng)用程序的完整路徑,第2個(gè)參數(shù)argv就是傳給被執(zhí)行應(yīng)用程序的命令行參數(shù),第3個(gè)參數(shù)envp是傳給被執(zhí)行應(yīng)用程序的環(huán)境變量。
留心看一下這6個(gè)函數(shù)還可以發(fā)現(xiàn),前3個(gè)函數(shù)都是以execl開(kāi)頭的,后3個(gè)都是以execv開(kāi)頭的,它們的區(qū)別在于,execv開(kāi)頭的函數(shù)是以 “char *argv[]”這樣的形式傳遞命令行參數(shù),而execl開(kāi)頭的函數(shù)采用了我們更容易習(xí)慣的方式,把參數(shù)一個(gè)一個(gè)列出來(lái),然后以一個(gè)null表示結(jié)束。這 里的null的作用和argv數(shù)組里的null作用是一樣的。
在全部6個(gè)函數(shù)中,只有execle和execve使用了 char *envp[]傳遞環(huán)境變量,其它的4個(gè)函數(shù)都沒(méi)有這個(gè)參數(shù),這并不意味著它們不傳遞環(huán)境變量,這4個(gè)函數(shù)將把默認(rèn)的環(huán)境變量不做任何修改地傳給被執(zhí)行的 應(yīng)用程序。而execle和execve會(huì)用指定的環(huán)境變量去替代默認(rèn)的那些。
還有2個(gè)以p結(jié)尾的函數(shù)execlp和 execvp,咋看起來(lái),它們和execl與execv的差別很小,事實(shí)也確是如此,除execlp和execvp之外的4個(gè)函數(shù)都要求,它們的第1個(gè)參 數(shù)path必須是一個(gè)完整的路徑,如"/bin/ls";而execlp和execvp的第1個(gè)參數(shù)file可以簡(jiǎn)單到僅僅是一個(gè)文件名,如"ls",這 兩個(gè)函數(shù)可以自動(dòng)到環(huán)境變量path制定的目錄里去尋找。
實(shí)戰(zhàn)
知識(shí)介紹得差不多了,接下來(lái)我們看看實(shí)際的應(yīng)用:
/* exec.c */
#include
main()
{
char *envp[]={"path=/tmp",
"user=lei",
"status=testing",
null};
char *argv_execv[]={"echo", "excuted by execv", null};
char *argv_execvp[]={"echo", "executed by execvp", null};
char *argv_execve[]={"env", null};
if(fork()==0)
if(execl("/bin/echo", "echo", "executed by execl", null)<0)
perror("err on execl");
if(fork()==0)
if(execlp("echo", "echo", "executed by execlp", null)<0)
perror("err on execlp");
if(fork()==0)
if(execle("/usr/bin/env", "env", null, envp)<0)
perror("err on execle");
if(fork()==0)
if(execv("/bin/echo", argv_execv)<0)
perror("err on execv");
if(fork()==0)
if(execvp("echo", argv_execvp)<0)
perror("err on execvp");
if(fork()==0)
if(execve("/usr/bin/env", argv_execve, envp)<0)
perror("err on execve");
}
程序里調(diào)用了2個(gè)linux常用的系統(tǒng)命令,echo和env。echo會(huì)把后面跟的命令行參數(shù)原封不動(dòng)的打印出來(lái),env用來(lái)列出所有環(huán)境變量。
由于各個(gè)子進(jìn)程執(zhí)行的順序無(wú)法控制,所以有可能出現(xiàn)一個(gè)比較混亂的輸出--各子進(jìn)程打印的結(jié)果交雜在一起,而不是嚴(yán)格按照程序中列出的次序。
編譯并運(yùn)行:
$ cc exec.c -o exec
$ ./exec
executed by execl
path=/tmp
user=lei
status=testing
executed by execlp
excuted by execv
executed by execvp
path=/tmp
user=lei
status=testing
果然不出所料,execle輸出的結(jié)果跑到了execlp前面。
大家在平時(shí)的編程中,如果用到了exec函數(shù)族,一定記得要加錯(cuò)誤判斷語(yǔ)句。因?yàn)榕c其他系統(tǒng)調(diào)用比起來(lái),exec很容易受傷,被執(zhí)行文件的位置,權(quán)限等很多因素都能導(dǎo)致該調(diào)用的失敗。最常見(jiàn)的錯(cuò)誤是:
找不到文件或路徑,此時(shí)errno被設(shè)置為enoent;
數(shù)組argv和envp忘記用null結(jié)束,此時(shí)errno被設(shè)置為efault;
沒(méi)有對(duì)要執(zhí)行文件的運(yùn)行權(quán)限,此時(shí)errno被設(shè)置為eacces。
進(jìn)程的一生
下面就讓我用一些形象的比喻,來(lái)對(duì)進(jìn)程短暫的一生作一個(gè)小小的總結(jié):
隨著一句fork,一個(gè)新進(jìn)程呱呱落地,但它這時(shí)只是老進(jìn)程的一個(gè)克隆。
然后隨著exec,新進(jìn)程脫胎換骨,離家獨(dú)立,開(kāi)始了為人民服務(wù)的職業(yè)生涯。
人有生老病死,進(jìn)程也一樣,它可以是自然死亡,即運(yùn)行到main函數(shù)的最后一個(gè)"}",從容地離我們而去;也可以是自殺,自殺有2種方式,一種是調(diào)用 exit函數(shù),一種是在main函數(shù)內(nèi)使用return,無(wú)論哪一種方式,它都可以留下遺書(shū),放在返回值里保留下來(lái);它還甚至能可被謀殺,被其它進(jìn)程通過(guò) 另外一些方式結(jié)束他的生命。
進(jìn)程死掉以后,會(huì)留下一具僵尸,wait和waitpid充當(dāng)了殮尸工,把僵尸推去火化,使其最終歸于無(wú)形。
這就是進(jìn)程完整的一生。
小結(jié)
本文重點(diǎn)介紹了系統(tǒng)調(diào)用wait、waitpid和exec函數(shù)族,對(duì)與進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用的介紹就在這里告一段落,在下一篇文章,也是與進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用的最后一篇文章中,我們會(huì)通過(guò)兩個(gè)很酷的實(shí)際例子,來(lái)重溫一下最近學(xué)過(guò)的知識(shí)。
也許讀者們還對(duì)這個(gè)新概念比較好奇,那就讓我們來(lái)看一眼linux里的僵尸進(jìn)程究竟長(zhǎng)什么樣子。
當(dāng)一個(gè)進(jìn)程已退出,但其父進(jìn)程還沒(méi)有調(diào)用系統(tǒng)調(diào)用wait(稍后介紹)對(duì)其進(jìn)行收集之前的這段時(shí)間里,它會(huì)一直保持僵尸狀態(tài),利用這個(gè)特點(diǎn),我們來(lái)寫(xiě)一個(gè)簡(jiǎn)單的小程序:
/* zombie.c */
#include
#include
main()
{
pid_t pid;
pid=fork();
if(pid<0) /* 如果出錯(cuò) */
printf("error occurred!n");
else if(pid==0) /* 如果是子進(jìn)程 */
exit(0);
else /* 如果是父進(jìn)程 */
sleep(60); /* 休眠60秒,這段時(shí)間里,父進(jìn)程什么也干不了 */
wait(null); /* 收集僵尸進(jìn)程 */
}
sleep的作用是讓進(jìn)程休眠指定的秒數(shù),在這60秒內(nèi),子進(jìn)程已經(jīng)退出,而父進(jìn)程正忙著睡覺(jué),不可能對(duì)它進(jìn)行收集,這樣,我們就能保持子進(jìn)程60秒的僵尸狀態(tài)。
編譯這個(gè)程序:
$ cc zombie.c -o zombie
后臺(tái)運(yùn)行程序,以使我們能夠執(zhí)行下一條命令:
$ ./zombie &
[1] 1577
列一下系統(tǒng)內(nèi)的進(jìn)程:
$ ps -ax
... ...
1177 pts/0 s 0:00 -bash
1577 pts/0 s 0:00 ./zombie
1578 pts/0 z 0:00 [zombie ]
1579 pts/0 r 0:00 ps -ax
看到中間的“z”了嗎?那就是僵尸進(jìn)程的標(biāo)志,它表示1578號(hào)進(jìn)程現(xiàn)在就是一個(gè)僵尸進(jìn)程。
我們已經(jīng)學(xué)習(xí)了系統(tǒng)調(diào)用exit,它的作用是使進(jìn)程退出,但也僅僅限于將一個(gè)正常的進(jìn)程變成一個(gè)僵尸進(jìn)程,并不能將其完全銷毀。僵尸進(jìn)程雖然對(duì)其他進(jìn)程 幾乎沒(méi)有什么影響,不占用cpu時(shí)間,消耗的內(nèi)存也幾乎可以忽略不計(jì),但有它在那里呆著,還是讓人覺(jué)得心里很不舒服。而且linux系統(tǒng)中進(jìn)程數(shù)目是有限 制的,在一些特殊的情況下,如果存在太多的僵尸進(jìn)程,也會(huì)影響到新進(jìn)程的產(chǎn)生。那么,我們?cè)撊绾蝸?lái)消滅這些僵尸進(jìn)程呢?
先來(lái)了解 一下僵尸進(jìn)程的來(lái)由,我們知道,linux和unix總有著剪不斷理還亂的親緣關(guān)系,僵尸進(jìn)程的概念也是從unix上繼承來(lái)的,而unix的先驅(qū)們?cè)O(shè)計(jì)這 個(gè)東西并非是因?yàn)殚e來(lái)無(wú)聊想煩煩其他的程序員。僵尸進(jìn)程中保存著很多對(duì)程序員和系統(tǒng)管理員非常重要的信息,首先,這個(gè)進(jìn)程是怎么死亡的?是正常退出呢,還 是出現(xiàn)了錯(cuò)誤,還是被其它進(jìn)程強(qiáng)迫退出的?其次,這個(gè)進(jìn)程占用的總系統(tǒng)cpu時(shí)間和總用戶cpu時(shí)間分別是多少?發(fā)生頁(yè)錯(cuò)誤的數(shù)目和收到信號(hào)的數(shù)目。這些 信息都被存儲(chǔ)在僵尸進(jìn)程中,試想如果沒(méi)有僵尸進(jìn)程,進(jìn)程一退出,所有與之相關(guān)的信息都立刻歸于無(wú)形,而此時(shí)程序員或系統(tǒng)管理員需要用到,就只好干瞪眼了。
那么,我們?nèi)绾问占@些信息,并終結(jié)這些僵尸進(jìn)程呢?就要靠我們下面要講到的waitpid調(diào)用和wait調(diào)用。這兩者的作用都是收集僵尸進(jìn)程留下的信息,同時(shí)使這個(gè)進(jìn)程徹底消失。下面就對(duì)這兩個(gè)調(diào)用分別作詳細(xì)介紹。
wait
簡(jiǎn)介
wait的函數(shù)原型是:
#include /* 提供類型pid_t的定義 */
#include
pid_t wait(int *status)
進(jìn)程一旦調(diào)用了wait,就立即阻塞自己,由wait自動(dòng)分析是否當(dāng)前進(jìn)程的某個(gè)子進(jìn)程已經(jīng)退出,如果讓它找到了這樣一個(gè)已經(jīng)變成僵尸的子進(jìn) 程,wait就會(huì)收集這個(gè)子進(jìn)程的信息,并把它徹底銷毀后返回;如果沒(méi)有找到這樣一個(gè)子進(jìn)程,wait就會(huì)一直阻塞在這里,直到有一個(gè)出現(xiàn)為止。
參數(shù)status用來(lái)保存被收集進(jìn)程退出時(shí)的一些狀態(tài),它是一個(gè)指向int類型的指針。但如果我們對(duì)這個(gè)子進(jìn)程是如何死掉的毫不在意,只想把這個(gè)僵尸進(jìn)程消滅掉,(事實(shí)上絕大多數(shù)情況下,我們都會(huì)這樣想),我們就可以設(shè)定這個(gè)參數(shù)為null,就象下面這樣:
pid = wait(null);
如果成功,wait會(huì)返回被收集的子進(jìn)程的進(jìn)程id,如果調(diào)用進(jìn)程沒(méi)有子進(jìn)程,調(diào)用就會(huì)失敗,此時(shí)wait返回-1,同時(shí)errno被置為echild。
實(shí)戰(zhàn)
下面就讓我們用一個(gè)例子來(lái)實(shí)戰(zhàn)應(yīng)用一下wait調(diào)用,程序中用到了系統(tǒng)調(diào)用fork,如果你對(duì)此不大熟悉或已經(jīng)忘記了,請(qǐng)參考上一篇文章進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用(1)。
/* wait1.c */
#include
#include
#include
#include
main()
{
pid_t pc,pr;
pc=fork();
if(pc<0) /* 如果出錯(cuò) */
printf("error ocurred!n");
else if(pc==0){ /* 如果是子進(jìn)程 */
printf("this is child process with pid of %dn",getpid());
sleep(10); /* 睡眠10秒鐘 */
}
else{ /* 如果是父進(jìn)程 */
pr=wait(null); /* 在這里等待 */
printf("i catched a child process with pid of %dn"),pr);
}
exit(0);
}
編譯并運(yùn)行:
$ cc wait1.c -o wait1
$ ./wait1
this is child process with pid of 1508
i catched a child process with pid of 1508
可以明顯注意到,在第2行結(jié)果打印出來(lái)前有10秒鐘的等待時(shí)間,這就是我們?cè)O(shè)定的讓子進(jìn)程睡眠的時(shí)間,只有子進(jìn)程從睡眠中蘇醒過(guò)來(lái),它才能正常退出,也 就才能被父進(jìn)程捕捉到。其實(shí)這里我們不管設(shè)定子進(jìn)程睡眠的時(shí)間有多長(zhǎng),父進(jìn)程都會(huì)一直等待下去,讀者如果有興趣的話,可以試著自己修改一下這個(gè)數(shù)值,看看 會(huì)出現(xiàn)怎樣的結(jié)果。
參數(shù)status
如果參數(shù)status的值不是null,wait就會(huì)把子進(jìn)程退出 時(shí)的狀態(tài)取出并存入其中,這是一個(gè)整數(shù)值(int),指出了子進(jìn)程是正常退出還是被非正常結(jié)束的(一個(gè)進(jìn)程也可以被其他進(jìn)程用信號(hào)結(jié)束,我們將在以后的文 章中介紹),以及正常結(jié)束時(shí)的返回值,或被哪一個(gè)信號(hào)結(jié)束的等信息。由于這些信息被存放在一個(gè)整數(shù)的不同二進(jìn)制位中,所以用常規(guī)的方法讀取會(huì)非常麻煩,人 們就設(shè)計(jì)了一套專門的宏(macro)來(lái)完成這項(xiàng)工作,下面我們來(lái)學(xué)習(xí)一下其中最常用的兩個(gè):
● wifexited(status)
這個(gè)宏用來(lái)指出子進(jìn)程是否為正常退出的,如果是,它會(huì)返回一個(gè)非零值。
(請(qǐng)注意,雖然名字一樣,這里的參數(shù)status并不同于wait唯一的參數(shù)--指向整數(shù)的指針status,而是那個(gè)指針?biāo)赶虻恼麛?shù),切記不要搞混了。)
● wexitstatus(status)
當(dāng)wifexited返回非零值時(shí),我們可以用這個(gè)宏來(lái)提取子進(jìn)程的返回值,如果子進(jìn)程調(diào)用exit(5)退 出,wexitstatus(status)就會(huì)返回5;如果子進(jìn)程調(diào)用exit(7),wexitstatus(status)就會(huì)返回7。請(qǐng)注意,如 果進(jìn)程不是正常退出的,也就是說(shuō),wifexited返回0,這個(gè)值就毫無(wú)意義。
下面通過(guò)例子來(lái)實(shí)戰(zhàn)一下我們剛剛學(xué)到的內(nèi)容:
/* wait2.c */
#include
#include
#include
main()
{
int status;
pid_t pc,pr;
pc=fork();
if(pc<0) /* 如果出錯(cuò) */
printf("error ocurred!n");
else if(pc==0){ /* 子進(jìn)程 */
printf("this is child process with pid of %d.n",getpid());
exit(3); /* 子進(jìn)程返回3 */
}
else{ /* 父進(jìn)程 */
pr=wait(&status);
if(wifexited(status)){ /* 如果wifexited返回非零值 */
printf("the child process %d exit normally.n",pr);
printf("the return code is %d.n",wexitstatus(status));
}else /* 如果wifexited返回零 */
printf("the child process %d exit abnormally.n",pr);
}
}
編譯并運(yùn)行:
$ cc wait2.c -o wait2
$ ./wait2
this is child process with pid of 1538.
the child process 1538 exit normally.
the return code is 3.
父進(jìn)程準(zhǔn)確捕捉到了子進(jìn)程的返回值3,并把它打印了出來(lái)。
當(dāng)然,處理進(jìn)程退出狀態(tài)的宏并不止這兩個(gè),但它們當(dāng)中的絕大部分在平時(shí)的編程中很少用到,就也不在這里浪費(fèi)篇幅介紹了,有興趣的讀者可以自己參閱linux man pages去了解它們的用法。
進(jìn)程同步
有時(shí)候,父進(jìn)程要求子進(jìn)程的運(yùn)算結(jié)果進(jìn)行下一步的運(yùn)算,或者子進(jìn)程的功能是為父進(jìn)程提供了下一步執(zhí)行的先決條件(如:子進(jìn)程建立文件,而父進(jìn)程寫(xiě)入數(shù) 據(jù)),此時(shí)父進(jìn)程就必須在某一個(gè)位置停下來(lái),等待子進(jìn)程運(yùn)行結(jié)束,而如果父進(jìn)程不等待而直接執(zhí)行下去的話,可以想見(jiàn),會(huì)出現(xiàn)極大的混亂。這種情況稱為進(jìn)程 之間的同步,更準(zhǔn)確地說(shuō),這是進(jìn)程同步的一種特例。進(jìn)程同步就是要協(xié)調(diào)好2個(gè)以上的進(jìn)程,使之以安排好地次序依次執(zhí)行。解決進(jìn)程同步問(wèn)題有更通用的方法, 我們將在以后介紹,但對(duì)于我們假設(shè)的這種情況,則完全可以用wait系統(tǒng)調(diào)用簡(jiǎn)單的予以解決。請(qǐng)看下面這段程序:
#include
#include
main()
{
pid_t pc, pr;
int status;
pc=fork();
if(pc<0)
printf("error occured on forking.n");
else if(pc==0){
/* 子進(jìn)程的工作 */
exit(0);
}else{
/* 父進(jìn)程的工作 */
pr=wait(&status);
/* 利用子進(jìn)程的結(jié)果 */
}
}
這段程序只是個(gè)例子,不能真正拿來(lái)執(zhí)行,但它卻說(shuō)明了一些問(wèn)題,首先,當(dāng)fork調(diào)用成功后,父子進(jìn)程各做各的事情,但當(dāng)父進(jìn)程的工作告一段落,需要用 到子進(jìn)程的結(jié)果時(shí),它就停下來(lái)調(diào)用wait,一直等到子進(jìn)程運(yùn)行結(jié)束,然后利用子進(jìn)程的結(jié)果繼續(xù)執(zhí)行,這樣就圓滿地解決了我們提出的進(jìn)程同步問(wèn)題。
waitpid
簡(jiǎn)介
waitpid系統(tǒng)調(diào)用在linux函數(shù)庫(kù)中的原型是:
#include /* 提供類型pid_t的定義 */
#include
pid_t waitpid(pid_t pid,int *status,int options)
從本質(zhì)上講,系統(tǒng)調(diào)用waitpid和wait的作用是完全相同的,但waitpid多出了兩個(gè)可由用戶控制的參數(shù)pid和options,從而為我們編程提供了另一種更靈活的方式。下面我們就來(lái)詳細(xì)介紹一下這兩個(gè)參數(shù):
● pid
從參數(shù)的名字pid和類型pid_t中就可以看出,這里需要的是一個(gè)進(jìn)程id。但當(dāng)pid取不同的值時(shí),在這里有不同的意義。
pid>0時(shí),只等待進(jìn)程id等于pid的子進(jìn)程,不管其它已經(jīng)有多少子進(jìn)程運(yùn)行結(jié)束退出了,只要指定的子進(jìn)程還沒(méi)有結(jié)束,waitpid就會(huì)一直等下去。
pid=-1時(shí),等待任何一個(gè)子進(jìn)程退出,沒(méi)有任何限制,此時(shí)waitpid和wait的作用一模一樣。
pid=0時(shí),等待同一個(gè)進(jìn)程組中的任何子進(jìn)程,如果子進(jìn)程已經(jīng)加入了別的進(jìn)程組,waitpid不會(huì)對(duì)它做任何理睬。
pid<-1時(shí),等待一個(gè)指定進(jìn)程組中的任何子進(jìn)程,這個(gè)進(jìn)程組的id等于pid的絕對(duì)值。
● options
options提供了一些額外的選項(xiàng)來(lái)控制waitpid,目前在linux中只支持wnohang和wuntraced兩個(gè)選項(xiàng),這是兩個(gè)常數(shù),可以用"|"運(yùn)算符把它們連接起來(lái)使用,比如:
ret=waitpid(-1,null,wnohang | wuntraced);
如果我們不想使用它們,也可以把options設(shè)為0,如:
ret=waitpid(-1,null,0);
如果使用了wnohang參數(shù)調(diào)用waitpid,即使沒(méi)有子進(jìn)程退出,它也會(huì)立即返回,不會(huì)像wait那樣永遠(yuǎn)等下去。
而wuntraced參數(shù),由于涉及到一些跟蹤調(diào)試方面的知識(shí),加之極少用到,這里就不多費(fèi)筆墨了,有興趣的讀者可以自行查閱相關(guān)材料。
看到這里,聰明的讀者可能已經(jīng)看出端倪了--wait不就是經(jīng)過(guò)包裝的waitpid嗎?沒(méi)錯(cuò),察看<內(nèi)核源碼目錄>/include/unistd.h文件349-352行就會(huì)發(fā)現(xiàn)以下程序段:
static inline pid_t wait(int * wait_stat)
{
return waitpid(-1,wait_stat,0);
}
返回值和錯(cuò)誤
waitpid的返回值比wait稍微復(fù)雜一些,一共有3種情況:
● 當(dāng)正常返回的時(shí)候,waitpid返回收集到的子進(jìn)程的進(jìn)程id;
● 如果設(shè)置了選項(xiàng)wnohang,而調(diào)用中waitpid發(fā)現(xiàn)沒(méi)有已退出的子進(jìn)程可收集,則返回0;
● 如果調(diào)用中出錯(cuò),則返回-1,這時(shí)errno會(huì)被設(shè)置成相應(yīng)的值以指示錯(cuò)誤所在;
當(dāng)pid所指示的子進(jìn)程不存在,或此進(jìn)程存在,但不是調(diào)用進(jìn)程的子進(jìn)程,waitpid就會(huì)出錯(cuò)返回,這時(shí)errno被設(shè)置為echild;
/* waitpid.c */
#include
#include
#include
main()
{
pid_t pc, pr;
pc=fork();
if(pc<0) /* 如果fork出錯(cuò) */
printf("error occured on forking.n");
else if(pc==0){ /* 如果是子進(jìn)程 */
sleep(10); /* 睡眠10秒 */
exit(0);
}
/* 如果是父進(jìn)程 */
do{
pr=waitpid(pc, null, wnohang); /* 使用了wnohang參數(shù),waitpid不會(huì)在這里等待 */
if(pr==0){ /* 如果沒(méi)有收集到子進(jìn)程 */
printf("no child exitedn");
sleep(1);
}
}while(pr==0); /* 沒(méi)有收集到子進(jìn)程,就回去繼續(xù)嘗試 */
if(pr==pc)
printf("successfully get child %dn", pr);
else
printf("some error occuredn");
}
編譯并運(yùn)行:
$ cc waitpid.c -o waitpid
$ ./waitpid
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
no child exited
successfully get child 1526
父進(jìn)程經(jīng)過(guò)10次失敗的嘗試之后,終于收集到了退出的子進(jìn)程。
因?yàn)檫@只是一個(gè)例子程序,不便寫(xiě)得太復(fù)雜,所以我們就讓父進(jìn)程和子進(jìn)程分別睡眠了10秒鐘和1秒鐘,代表它們分別作了10秒鐘和1秒鐘的工作。父子進(jìn)程都有工作要做,父進(jìn)程利用工作的簡(jiǎn)短間歇察看子進(jìn)程的是否退出,如退出就收集它。
也許有不少讀者從本系列文章一推出就開(kāi)始讀,一直到這里還有一個(gè)很大的疑惑:既然所有新進(jìn)程都是由fork產(chǎn)生的,而且由fork產(chǎn)生的子進(jìn)程和父進(jìn)程 幾乎完全一樣,那豈不是意味著系統(tǒng)中所有的進(jìn)程都應(yīng)該一模一樣了嗎?而且,就我們的常識(shí)來(lái)說(shuō),當(dāng)我們執(zhí)行一個(gè)程序的時(shí)候,新產(chǎn)生的進(jìn)程的內(nèi)容應(yīng)就是程序的 內(nèi)容才對(duì)。是我們理解錯(cuò)了嗎?顯然不是,要解決這些疑惑,就必須提到我們下面要介紹的exec系統(tǒng)調(diào)用。
簡(jiǎn)介
說(shuō)是exec系統(tǒng)調(diào)用,實(shí)際上在linux中,并不存在一個(gè)exec()的函數(shù)形式,exec指的是一組函數(shù),一共有6個(gè),分別是:
#include
int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg, ..., char *const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);
int execve(const char *path, char *const argv[], char *const envp[]);
其中只有execve是真正意義上的系統(tǒng)調(diào)用,其它都是在此基礎(chǔ)上經(jīng)過(guò)包裝的庫(kù)函數(shù)。
exec函數(shù)族的作用是根據(jù)指定的文件名找到可執(zhí)行文件,并用它來(lái)取代調(diào)用進(jìn)程的內(nèi)容,換句話說(shuō),就是在調(diào)用進(jìn)程內(nèi)部執(zhí)行一個(gè)可執(zhí)行文件。這里的可執(zhí)行文件既可以是二進(jìn)制文件,也可以是任何linux下可執(zhí)行的腳本文件。
與一般情況不同,exec函數(shù)族的函數(shù)執(zhí)行成功后不會(huì)返回,因?yàn)檎{(diào)用進(jìn)程的實(shí)體,包括代碼段,數(shù)據(jù)段和堆棧等都已經(jīng)被新的內(nèi)容取代,只留下進(jìn)程id等一 些表面上的信息仍保持原樣,頗有些神似"三十六計(jì)"中的"金蟬脫殼"。看上去還是舊的軀殼,卻已經(jīng)注入了新的靈魂。只有調(diào)用失敗了,它們才會(huì)返回一個(gè) -1,從原程序的調(diào)用點(diǎn)接著往下執(zhí)行。
現(xiàn)在我們應(yīng)該明白了,linux下是如何執(zhí)行新程序的,每當(dāng)有進(jìn)程認(rèn)為自己不能為系統(tǒng)和擁 護(hù)做出任何貢獻(xiàn)了,他就可以發(fā)揮最后一點(diǎn)余熱,調(diào)用任何一個(gè)exec,讓自己以新的面貌重生;或者,更普遍的情況是,如果一個(gè)進(jìn)程想執(zhí)行另一個(gè)程序,它就 可以fork出一個(gè)新進(jìn)程,然后調(diào)用任何一個(gè)exec,這樣看起來(lái)就好像通過(guò)執(zhí)行應(yīng)用程序而產(chǎn)生了一個(gè)新進(jìn)程一樣。
事實(shí)上第二種 情況被應(yīng)用得如此普遍,以至于linux專門為其作了優(yōu)化,我們已經(jīng)知道,fork會(huì)將調(diào)用進(jìn)程的所有內(nèi)容原封不動(dòng)的拷貝到新產(chǎn)生的子進(jìn)程中去,這些拷貝 的動(dòng)作很消耗時(shí)間,而如果fork完之后我們馬上就調(diào)用exec,這些辛辛苦苦拷貝來(lái)的東西又會(huì)被立刻抹掉,這看起來(lái)非常不劃算,于是人們?cè)O(shè)計(jì)了一種"寫(xiě) 時(shí)拷貝(copy-on-write)"技術(shù),使得fork結(jié)束后并不立刻復(fù)制父進(jìn)程的內(nèi)容,而是到了真正實(shí)用的時(shí)候才復(fù)制,這樣如果下一條語(yǔ)句是 exec,它就不會(huì)白白作無(wú)用功了,也就提高了效率。
稍稍深入
上面6條函數(shù)看起來(lái)似乎很復(fù)雜,但實(shí)際上無(wú)論是作用還是用法都非常相似,只有很微小的差別。在學(xué)習(xí)它們之前,先來(lái)了解一下我們習(xí)以為常的main函數(shù)。
下面這個(gè)main函數(shù)的形式可能有些出乎我們的意料:
int main(int argc, char *argv[], char *envp[])
它可能與絕大多數(shù)教科書(shū)上描述的都不一樣,但實(shí)際上,這才是main函數(shù)真正完整的形式。
參數(shù)argc指出了運(yùn)行該程序時(shí)命令行參數(shù)的個(gè)數(shù),數(shù)組argv存放了所有的命令行參數(shù),數(shù)組envp存放了所有的環(huán)境變量。環(huán)境變量指的是一組值,從 用戶登錄后就一直存在,很多應(yīng)用程序需要依靠它來(lái)確定系統(tǒng)的一些細(xì)節(jié),我們最常見(jiàn)的環(huán)境變量是path,它指出了應(yīng)到哪里去搜索應(yīng)用程序,如 /bin;home也是比較常見(jiàn)的環(huán)境變量,它指出了我們?cè)谙到y(tǒng)中的個(gè)人目錄。環(huán)境變量一般以字符串"xxx=xxx"的形式存在,xxx表示變量 名,xxx表示變量的值。
值得一提的是,argv數(shù)組和envp數(shù)組存放的都是指向字符串的指針,這兩個(gè)數(shù)組都以一個(gè)null元素表示數(shù)組的結(jié)尾。
我們可以通過(guò)以下這個(gè)程序來(lái)觀看傳到argc、argv和envp里的都是什么東西:
/* main.c */
int main(int argc, char *argv[], char *envp[])
{
printf("n### argc ###n%dn", argc);
printf("n### argv ###n");
while(*argv)
printf("%sn", *(argv++));
printf("n### envp ###n");
while(*envp)
printf("%sn", *(envp++));
return 0;
}
編譯它:
$ cc main.c -o main
運(yùn)行時(shí),我們故意加幾個(gè)沒(méi)有任何作用的命令行參數(shù):
$ ./main -xx 000
### argc ###
3
### argv ###
./main
-xx
000
### envp ###
pwd=/home/lei
remotehost=dt.laser.com
hostname=localhost.localdomain
qtdir=/usr/lib/qt-2.3.1
lessopen=|/usr/bin/lesspipe.sh %s
kdedir=/usr
user=lei
ls_colors=
machtype=i386-redhat-linux-gnu
mail=/var/spool/mail/lei
inputrc=/etc/inputrc
lang=en_us
logname=lei
shlvl=1
shell=/bin/bash
hosttype=i386
ostype=linux-gnu
histsize=1000
term=ansi
home=/home/lei
path=/usr/local/bin:/bin:/usr/bin:/usr/x11r6/bin:/home/lei/bin
_=./main
我們看到,程序?qū)ⅰ?/main”作為第1個(gè)命令行參數(shù),所以我們一共有3個(gè)命令行參數(shù)。這可能與大家平時(shí)習(xí)慣的說(shuō)法有些不同,小心不要搞錯(cuò)了。
現(xiàn)在回過(guò)頭來(lái)看一下exec函數(shù)族,先把注意力集中在execve上:
int execve(const char *path, char *const argv[], char *const envp[]);
對(duì)比一下main函數(shù)的完整形式,看出問(wèn)題了嗎?是的,這兩個(gè)函數(shù)里的argv和envp是完全一一對(duì)應(yīng)的關(guān)系。execve第1個(gè)參數(shù)path是被執(zhí) 行應(yīng)用程序的完整路徑,第2個(gè)參數(shù)argv就是傳給被執(zhí)行應(yīng)用程序的命令行參數(shù),第3個(gè)參數(shù)envp是傳給被執(zhí)行應(yīng)用程序的環(huán)境變量。
留心看一下這6個(gè)函數(shù)還可以發(fā)現(xiàn),前3個(gè)函數(shù)都是以execl開(kāi)頭的,后3個(gè)都是以execv開(kāi)頭的,它們的區(qū)別在于,execv開(kāi)頭的函數(shù)是以 “char *argv[]”這樣的形式傳遞命令行參數(shù),而execl開(kāi)頭的函數(shù)采用了我們更容易習(xí)慣的方式,把參數(shù)一個(gè)一個(gè)列出來(lái),然后以一個(gè)null表示結(jié)束。這 里的null的作用和argv數(shù)組里的null作用是一樣的。
在全部6個(gè)函數(shù)中,只有execle和execve使用了 char *envp[]傳遞環(huán)境變量,其它的4個(gè)函數(shù)都沒(méi)有這個(gè)參數(shù),這并不意味著它們不傳遞環(huán)境變量,這4個(gè)函數(shù)將把默認(rèn)的環(huán)境變量不做任何修改地傳給被執(zhí)行的 應(yīng)用程序。而execle和execve會(huì)用指定的環(huán)境變量去替代默認(rèn)的那些。
還有2個(gè)以p結(jié)尾的函數(shù)execlp和 execvp,咋看起來(lái),它們和execl與execv的差別很小,事實(shí)也確是如此,除execlp和execvp之外的4個(gè)函數(shù)都要求,它們的第1個(gè)參 數(shù)path必須是一個(gè)完整的路徑,如"/bin/ls";而execlp和execvp的第1個(gè)參數(shù)file可以簡(jiǎn)單到僅僅是一個(gè)文件名,如"ls",這 兩個(gè)函數(shù)可以自動(dòng)到環(huán)境變量path制定的目錄里去尋找。
實(shí)戰(zhàn)
知識(shí)介紹得差不多了,接下來(lái)我們看看實(shí)際的應(yīng)用:
/* exec.c */
#include
main()
{
char *envp[]={"path=/tmp",
"user=lei",
"status=testing",
null};
char *argv_execv[]={"echo", "excuted by execv", null};
char *argv_execvp[]={"echo", "executed by execvp", null};
char *argv_execve[]={"env", null};
if(fork()==0)
if(execl("/bin/echo", "echo", "executed by execl", null)<0)
perror("err on execl");
if(fork()==0)
if(execlp("echo", "echo", "executed by execlp", null)<0)
perror("err on execlp");
if(fork()==0)
if(execle("/usr/bin/env", "env", null, envp)<0)
perror("err on execle");
if(fork()==0)
if(execv("/bin/echo", argv_execv)<0)
perror("err on execv");
if(fork()==0)
if(execvp("echo", argv_execvp)<0)
perror("err on execvp");
if(fork()==0)
if(execve("/usr/bin/env", argv_execve, envp)<0)
perror("err on execve");
}
程序里調(diào)用了2個(gè)linux常用的系統(tǒng)命令,echo和env。echo會(huì)把后面跟的命令行參數(shù)原封不動(dòng)的打印出來(lái),env用來(lái)列出所有環(huán)境變量。
由于各個(gè)子進(jìn)程執(zhí)行的順序無(wú)法控制,所以有可能出現(xiàn)一個(gè)比較混亂的輸出--各子進(jìn)程打印的結(jié)果交雜在一起,而不是嚴(yán)格按照程序中列出的次序。
編譯并運(yùn)行:
$ cc exec.c -o exec
$ ./exec
executed by execl
path=/tmp
user=lei
status=testing
executed by execlp
excuted by execv
executed by execvp
path=/tmp
user=lei
status=testing
果然不出所料,execle輸出的結(jié)果跑到了execlp前面。
大家在平時(shí)的編程中,如果用到了exec函數(shù)族,一定記得要加錯(cuò)誤判斷語(yǔ)句。因?yàn)榕c其他系統(tǒng)調(diào)用比起來(lái),exec很容易受傷,被執(zhí)行文件的位置,權(quán)限等很多因素都能導(dǎo)致該調(diào)用的失敗。最常見(jiàn)的錯(cuò)誤是:
找不到文件或路徑,此時(shí)errno被設(shè)置為enoent;
數(shù)組argv和envp忘記用null結(jié)束,此時(shí)errno被設(shè)置為efault;
沒(méi)有對(duì)要執(zhí)行文件的運(yùn)行權(quán)限,此時(shí)errno被設(shè)置為eacces。
進(jìn)程的一生
下面就讓我用一些形象的比喻,來(lái)對(duì)進(jìn)程短暫的一生作一個(gè)小小的總結(jié):
隨著一句fork,一個(gè)新進(jìn)程呱呱落地,但它這時(shí)只是老進(jìn)程的一個(gè)克隆。
然后隨著exec,新進(jìn)程脫胎換骨,離家獨(dú)立,開(kāi)始了為人民服務(wù)的職業(yè)生涯。
人有生老病死,進(jìn)程也一樣,它可以是自然死亡,即運(yùn)行到main函數(shù)的最后一個(gè)"}",從容地離我們而去;也可以是自殺,自殺有2種方式,一種是調(diào)用 exit函數(shù),一種是在main函數(shù)內(nèi)使用return,無(wú)論哪一種方式,它都可以留下遺書(shū),放在返回值里保留下來(lái);它還甚至能可被謀殺,被其它進(jìn)程通過(guò) 另外一些方式結(jié)束他的生命。
進(jìn)程死掉以后,會(huì)留下一具僵尸,wait和waitpid充當(dāng)了殮尸工,把僵尸推去火化,使其最終歸于無(wú)形。
這就是進(jìn)程完整的一生。
小結(jié)
本文重點(diǎn)介紹了系統(tǒng)調(diào)用wait、waitpid和exec函數(shù)族,對(duì)與進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用的介紹就在這里告一段落,在下一篇文章,也是與進(jìn)程管理相關(guān)的系統(tǒng)調(diào)用的最后一篇文章中,我們會(huì)通過(guò)兩個(gè)很酷的實(shí)際例子,來(lái)重溫一下最近學(xué)過(guò)的知識(shí)。
總結(jié)
- 上一篇: 深度学习caffe教程
- 下一篇: GNU gcc的编译工具用法(转)