一個Linux程式的執行過程的詳解

來源:互聯網
上載者:User

 1.父進程的行為: 複製,等待


執行應用程式的方式有很多,從shell中執行是一種常見的情況。互動式shell是一個進程(所有的進程都由pid號為1的init進程fork得到,關於這個話題涉及到Linux啟動和初始化,以及idle進程等,有空再說),當在使用者在shell中敲入./test執行程式時,shell先fork()出一個子進程(這也是很多文章中說的子shell),並且wait()這個子進程結束,所以當test執行結束後,又回到了shell等待使用者輸入(如果建立的是所謂的後台進程,shell則不會等待子進程結束,而直接繼續往下執行)。所以shell進程的主要工作是複製一個新的進程,並等待它的結束。


2.子進程的行為: "執行"應用程式


2.1 execve()


另一方面,在子進程中會調用execve()載入test並開始執行。這是test被執行的關鍵,下面我們詳細分析一下。


execve()是作業系統提供的非常重要的一個系統調用,在很多文章中被稱為exec()系統調用(注意和shell內部exec命令不一樣),其實在Linux中並沒有exec()這個系統調用,exec只是用來描述一組函數,它們都以exec開頭,分別是:


#include

int execl(const char *path, const char *arg, ...);

int execlp(const char *file, const char *arg, ...);

int execle(const char *path, const char *arg, ..., char *const envp[]);

int execv(const char *path, char *const argv[]);

int execvp(const char *file, char *const argv[]);

int execve(const char *path, char *const argv[], char *const envp[]);


這幾個都是都是libc中經過封裝的的庫函數,最後通過系統調用execve()實現(#define __NR_evecve 11,編號11的系統調用)。

 

exec 函數的作用是在當前進程裡執行可執行檔,也就是根據指定的檔案名稱找到可執行檔,用它來取代當前進程的內容,並且這個取代是無法復原的,即被替換掉的內容不再儲存,當可執行檔結束,整個進程也隨之僵死。因為當前進程的程式碼片段,資料區段和堆棧等都已經被新的內容取代,所以exec函數族的函數執行成功後不會返回,失敗是返回-1。可執行檔既可以是二進位檔案,也可以是可執行檔指令檔,兩者在載入時略有差別,這裡主要分析二進位檔案的運行。


2.2 do_execve()


在使用者態下調用execve(),引發系統中斷後,在核心態執行的相應函數是do_sys_execve(),而do_sys_execve()會調用 do_execve()函數。do_execve()首先會讀入可執行檔,如果可執行檔不存在,會報錯。然後對可執行檔的許可權進行檢查。如果檔案不是目前使用者是可執行檔,則execve()會返回-1,報permission denied的錯誤。否則繼續讀入運行可執行檔時所需的資訊(見struct linux_binprm)。


2.3 search_binary_handler()


接著系統調用search_binary_handler(),根據可執行檔的類型(如shell,a.out,ELF等),尋找到相應的處理函數(系統為每種檔案類型建立了一個struct linux_binfmt,並把其串在一個鏈表上,執行時遍曆這個鏈表,找到相應類型的結構。如果要自己定義一種可執行檔格式,也需要實現這麼一個 handler)。然後執行相應的load_binary()函數開始載入可執行檔。


2.4 load_elf_binary()


載入elf類型檔案的handler是load_elf_binary(),它先讀入ELF檔案的頭部,根據ELF檔案的頭部資訊讀入各種資料 (header information)。再次掃描程式段描述表,找到類型為PT_LOAD的段,將其映射(elf_map())到記憶體的固定地址上。如果沒有動態連結器的描述段,把返回的入口地址設定成應用程式入口。完成這個功能的是start_thread(),start_thread()並不啟動一個線程,而只是用來修改了pt_regs中儲存的PC等寄存器的值,使其指向載入的應用程式的入口。這樣當核心操作結束,返回使用者態的時候,接下來執行的就是應用程式了。ps:elf檔案是一種靈活的二進位檔案,可以是包含了資料和檔案的可執行檔程式,可以是可重定位檔案,這些資料是和其他重定位檔案和共用的object檔案一起連結起來使用的。#
file libfoo.o libfoo.o: ELF 32-bit LSB relocatable, Intel 80386, version 1, not stripped 。也或者是一種共用庫檔案,這些資料是在串連時候被連接器ld和運行時動態連接器使用的,例如 ld-linux.so.1


2.5 load_elf_interp()


如果應用程式中使用了動態連結程式庫,就沒有那麼簡單了,核心除了載入指定的可執行檔,還要把控制權交給動態連接器(program interpreter,ld.so in linux)以處理動態連結的程式。核心搜尋段表,找到標記為PT_INTERP的段中所對應的動態連接器的名稱,並使用 load_elf_interp()載入其映像,並把返回的入口地址設定成load_elf_interp()的傳回值,即動態連結器入口。當 execve退出的時候動態連結器接著運行。動態連接器檢查應用程式對共用串連庫的依賴性,並在需要時對其進行載入,對程式的外部參考進行重定位。然後動態連接器把控制權交給應用程式,從ELF檔案頭部中定義的程式進入點開始執行。(比如test.c中使用了userlib.so中函數foo(),在編譯的時候這個資訊被放進了test這個ELF檔案中,相應的語句也變成了call
fakefoo()。當載入test的時候,知道foo()是一個外部調用,於是求助於動態連結器,載入userlib.so,解析foo()函數地址,然後讓fakefoo()重新導向到foo(),這樣call foo()就成功了。)


簡短的說,整個在shell中鍵入./test執行應用程式的過程為:當前shell進程fork出一個子進程(子shell),子進程使用execve來脫離和父進程的關係,載入test檔案(ELF格式)到記憶體中。如果test使用了動態連結程式庫,就需要載入動態連結器(或者叫程式解譯器),進一步載入 test使用到的動態連結程式庫到記憶體,並重定位以供test調用。最後從test的入口地址開始執行test。


PS:  現代的動態連結器因為效能等原因都採用了消極式載入和延遲解析技術,消極式載入是動態串連庫在需要的時候才被載入到記憶體空間中(通過頁面異常機制),延遲解析是指到動態連結程式庫(以載入)中的函數被調用的時候,才會去把這個函數的起始位址解析出來,供調用者使用。動態連結器的實現相當的複雜,為了效能等原因,對堆棧的直接操作被大量使用,感興趣的可以找相關的代碼看看。
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.