引言
使用Shell進行工作的人們對Unix/Linux下的Shell編程都很熟悉,在所有的Shell編程的書中都會提到#!/bin/bash,而這裡到底包含了些什嗎?對作業系統而言,這一行字串意味著什嗎?你可能會說,不就是會讓/bin/bash程式來解釋這個指令碼程式嗎?當然你是對的,看看我們的標題,這裡我們談談解譯器,讓我們一起來看看指令檔裡的第一句到底對系統而言意味著什麼。但有一點我們可先明確一下,所謂解譯器就是指#!行後面的可執行檔程式。
一、我們從exec族函數談起
如果你從不寫C程式,可能需要對本節的內容看得更為仔細並且實驗一下。
代碼:
#include
extern char **environ;
int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg , ..., char * const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);
exec族函數一共有上面所列的5個,作用都是一樣:執行一段新的代碼。區別只是向函數傳遞的參數方式不同而已,我在這裡講講execl函數:第一個參數path是指向設定了執行位檔案的路徑,後面的可變參數列表分別指向了傳遞給此執行檔案的參數列表(包括了參數0,即是執行檔案的名稱)。最後一個參數為(char *) 0,表示參數列表結束。
對於解譯器,exec族函數是這樣做的(以execl為例),如果path是指向了一個指令碼,指令碼的第一行以#!開頭,則這樣調用:
以#!後面的字串為命令,後面加上execl參數列表中指定的參數列表,這樣形成了新的程式執行。
下面我們以例子來驗證這個結果:
下面這個C程式的作用是回射所有命令列參數。
代碼:
/* Program source : showargs.c *
* Program name : showargs */
#include
int
main(int argc, char *argv[])
{
int i;
for(i = 0; i < argc; i++)
{
printf("arg[%d]: %s/n", i, argv[i]);
}
return 0;
}
編譯:gcc -o showargs showargs.c
執行:
代碼:
$ pwd
/home/kiron
$ ./showargs arg1 arg2
arg[0]: ./showargs
arg[1]: arg1
arg[2]: arg2
我們在同一個目錄下再寫一個指令碼:
代碼:
#!/home/kiron/showargs addargs
我沒有打錯,是的,這個指令碼就只有一行,這個指令碼我們命名為testexec,加上執行位後,執行情況如下:
代碼:
$ ./testexec
arg[0]: /home/kiron/showargs
arg[1]: addargs
arg[2]: ./testexec
怎麼會這樣?我猜會有人對第2個參數./testexec不理解,暫且賣個關子,再引出一個C程式:
代碼:
/* Program source : mytest.c *
* Program name : mytest */
#include
int
main(void)
{
execl("/home/kiron/testexec", "testexec", "arg1", "arg2", (char *) 0);
return 0;
}
編譯:gcc -o mytest mytest.c
執行:
代碼:
$ ./mytest
arg[0]: /home/kiron/showargs
arg[1]: addargs
arg[2]: /home/kiron/testexec
arg[3]: arg1
arg[4]: arg2
仔細觀察上面的三個例子,答案開始浮出水面了。正如在開始時講到的,exec族函數的處理是把#!後面的字串為命令,後面加上execl參數列表中指定的參數列表,這樣形成了新的程式執行。分析一下mytest.c來源程式,execl把命令的結果是這樣執行的/home/kiron/testexec的內容是#!/home/kiron/showargs addargs,則#!後面的字串"/home/kiron/showargs addargs"加上命令參數列表:"/home/kiron/testexec arg1 arg2"就形成了新的程式行:/home/kiron/showargs addargs /home/kiron/testexec arg1 arg2。對於testexec指令碼,我們在shell中調用它時,shell調用了fork,exec,wait來執行它,也就是和程式mytest.c一樣用了exec函數,首先,exec函數對#!行分析後得出此指令碼的解譯器為/home/kiron/showargs,然後就形成了把命令列處理成了:“/home/kiron/showargs addargs ./testexec”。
注意:#!行中的解譯器的路徑必須是全路徑,exec函數並不對其特殊處理,比如用PATH變數來搜尋它的真實路徑,所以路徑是由程式員來保證正確的。
二、我的指令碼第一句必須得是#!/bin/bash嗎?
當然不必了,通過上面的解釋,其實第一句的#!是對指令碼的解譯器程式路徑,指令碼的內容是由解譯器解釋的,我們可以用各種各樣的解譯器來寫對應的指令碼,比如說/bin/csh指令碼,/bin/perl指令碼,/bin/awk指令碼,/bin/sed指令碼,甚至/bin/echo等等。那我們真的能寫一個/bin/echo的指令檔嗎?我們來試試,下面是一個例子:
代碼:
#!/bin/echo -e
我把這隻有一行的程式(實際上它也只能是一行,echo程式並不是被設計成像awk那樣的程式設計語言,能寫成來源程式檔案)命名為myecho,加上許可權後執行它:
代碼:
$ ./myecho "hi/a"
./myecho hi
如果你的echo支援-e選項並且你工作的環境還算安靜,你在得到上面的結果的時候也應該聽到清脆的終端響鈴。但這種程式是毫無作用的。
三、我能利用解譯器來做什嗎?
但是上面的echo指令碼實際應用時並沒有什麼作用,我們可以得出一個小小的實驗結果,並不是所有的可執行二進位檔案都可以用來寫解譯器指令碼。那我編寫解譯器的指令碼有什麼用?如果你有一個可程式化的解譯器,那你或許能編寫該解譯器的程式來簡化你工作。比如說常用到的解譯器如awk,perl,bash等等。但是正如我們上面總結的實驗結果,很不幸地,並不是全部的可程式化程式都是有用的解譯器,exec指令碼時,能從第一行得到指令碼的解譯器,然後用exec去解釋指令碼(可能是選項去控制,如#!/bin/awk -f),也包括了形如#!/PATH/的第一行,如果該解譯器對這行不能忽略的話,就會出錯,另外解譯器也必須要對餘下的程式語句能解釋(這句好像是廢話,但想象一下,上面myecho程式加一些"hello world"的行來,會有效嗎?下面的mysed程式中的s/UNIX/unix/p也是一樣的道理)。像awk,perl,bash等程式對#開頭的行當成注釋行處理,就能寫成有用的指令碼。
再看下面的mysed程式,
代碼:
#!/bin/sed -f
s/UNIX/unix/p
執行./mysed時出錯了。因為被解釋成了"/bin/sed -f ./mysed",其中-f選項是表示以檔案裡的內容作為sed的命令輸入,但sed的命令輸入不能對"#!/bin/sed -f"解釋,那麼程式出錯了。
所以,有用的解譯器應該是類似bash,perl,awk的程式,並且能對一些規定的語句有解釋功能的。下面給出一個awk程式寫的統計檔案行數和單詞數的指令碼程式myawk。
代碼:
#!/usr/bin/awk -f
BEGIN {
sum = 0;
}
{sum += NF;}
END {
printf("file /"%s/" have %d line, %d words./n", FILENAME, NR, sum);
}
設定執行位之後,執行如下:
代碼:
$ echo -e "hi/nhello world">test.txt
$ ./myawk test.txt
file "test.txt" have 2 line, 3 words
這裡執行./myawk被執行成“/usr/bin/awk -f ./myawk test.txt”,因為awk的命令中,以#開頭的行被認為是注釋行而忽略,awk忽略了第一行"#!/usr/bin/awk -f",正確的以非#開頭行當成模式和命令的輸入並能對其解釋,所以這個程式是正確的,能被順利地執行。