標籤:blog http io os ar 使用 sp 檔案 資料
零、boot的含義
先問一個問題,”啟動”用英語怎麼說?
回答是boot。可是,boot原來的意思是靴子,”啟動”與靴子有什麼關係呢? 原來,這裡的boot是bootstrap(鞋帶)的縮寫,它來自一句諺語:
"pull oneself up by one‘s bootstraps"
字面意思是”拽著鞋帶把自己拉起來”,這當然是不可能的事情。最早的時候,工程師們用它來比喻,電腦啟動是一個很矛盾的過程:必須先運行程式,然後電腦才能啟動,但是電腦不啟動就無法運行程式!
早期真的是這樣,必須想盡各種辦法,把一小段程式裝進記憶體,然後電腦才能正常運行。所以,工程師們把這個過程叫做”拉鞋帶”,久而久之就簡稱為boot了。
電腦的整個啟動過程分成四個階段。
一、第一階段:BIOS
上個世紀70年代初,”唯讀記憶體”(read-only memory,縮寫為ROM)發明,開機程式被刷入ROM晶片,電腦通電後,第一件事就是讀取它。
這塊晶片裡的程式叫做”基本輸出輸入系統”(Basic Input/Output System),簡稱為BIOS。
1.1 硬體自檢
BIOS中主要存放的程式包括:自診斷程式(通過讀取CMOS RAM中的內容識別硬體設定,並對其進行自檢和初始化)、CMOS設定程式(引導過程中,通過特殊熱鍵啟動,進行設定後,存入CMOS RAM中)、系統自動裝載程式(在系統自檢成功後,將磁碟相對0道0扇區上的引導程式裝入記憶體使其運行)和主要I/O驅動程式和中斷服務(BIOS和硬體直接打交道,需要載入I/O驅動程式)。
BIOS程式首先檢查,電腦硬體能否滿足啟動並執行基本條件,這叫做”硬體自檢”(Power-On Self-Test),縮寫為POST。
如果硬體出現問題,主板會發出不同含義的蜂鳴,啟動中止。如果沒有問題,螢幕就會顯示出CPU、記憶體、硬碟等資訊。
1.2 啟動順序
硬體自檢完成後,BIOS把控制權轉交給下一階段的啟動程式。
這時,BIOS需要知道,”下一階段的啟動程式”具體存放在哪一個裝置。也就是說,BIOS需要有一個外部儲存裝置的排序,排在前面的裝置就是優先轉交控制權的裝置。這種排序叫做”啟動順序”(Boot Sequence)。
開啟BIOS的操作介面,裡面有一項就是”設定啟動順序”。
二、第二階段:主引導記錄
BIOS按照”啟動順序”,把控制權轉交給排在第一位的儲存裝置。即根據使用者指定的引導順序從磁碟片、硬碟或是可行動裝置中讀取啟動裝置的MBR,並放入指定的位置(0x7c000)記憶體中。
這時,電腦讀取該裝置的第一個扇區,也就是讀取最前面的512個位元組。如果這512個位元組的最後兩個位元組是0x55和0xAA,表明這個裝置可以用於啟動;如果不是,表明裝置不能用於啟動,控制權於是被轉交給”啟動順序”中的下一個裝置。
這最前面的512個位元組,就叫做”主引導記錄”(Master boot record,縮寫為MBR)。
2.1 主引導記錄的結構
“主引導記錄”只有512個位元組,放不了太多東西。它的主要作用是,告訴電腦到硬碟的哪一個位置去找作業系統。
主引導記錄由三個部分組成:
(1) 第1-446位元組:叫用作業系統的機器碼。(2) 第447-510位元組:分區表(Partition table)。(3) 第511-512位元組:主引導記錄簽名(0x55和0xAA)。
其中,第二部分”分區表”的作用,是將硬碟分成若干個區。
2.2 分區表
硬碟分區有很多好處。考慮到每個區可以安裝不同的作業系統,”主引導記錄”因此必須知道將控制權轉交給哪個區。
分區表的長度只有64個位元組,裡面又分成四項,每項16個位元組。所以,一個硬碟最多隻能分四個一級分區,又叫做”主要磁碟分割”。
每個主要磁碟分割的16個位元組,由6個部分組成:
(1) 第1個位元組:如果為0x80,就表示該主要磁碟分割是啟用分區,控制權要轉交給這個分區。四個主要磁碟分割裡面只能有一個是啟用的。(2) 第2-4個位元組:主要磁碟分割第一個扇區的物理位置(柱面、磁頭、扇區號等等)。(3) 第5個位元組:主要磁碟分割類型。(4) 第6-8個位元組:主要磁碟分割最後一個扇區的物理位置。(5) 第9-12位元組:該主要磁碟分割第一個扇區的邏輯地址。(6) 第13-16位元組:主要磁碟分割的扇區總數。
最後的四個位元組(”主要磁碟分割的扇區總數”),決定了這個主要磁碟分割的長度。也就是說,一個主要磁碟分割的扇區總數最多不超過2的32次方。
如果每個扇區為512個位元組,就意味著單個分區最大不超過2TB。再考慮到扇區的邏輯地址也是32位,所以單個硬碟可利用的空間最大也不超過2TB。如果想使用更大的硬碟,只有2個方法:一是提高每個扇區的位元組數,二是增加扇區總數。
三、第三階段:硬碟啟動
這時,電腦的控制權就要轉交給硬碟的某個分區了,這裡又分成三種情況。
3.1 情況A:卷引導記錄
上一節提到,四個主要磁碟分割裡面,只有一個是啟用的。電腦會讀取啟用分區的第一個扇區,叫做”卷引導記錄”(Volume boot record,縮寫為VBR)。
“卷引導記錄”的主要作用是,告訴電腦,作業系統在這個分區裡的位置。然後,電腦就會載入作業系統了。
3.2 情況B:擴充分區和邏輯分區
隨著硬碟越來越大,四個主要磁碟分割已經不夠了,需要更多的分區。但是,分區表只有四項,因此規定有且僅有一個區可以被定義成”擴充分區”(Extended partition)。
所謂”擴充分區”,就是指這個區裡面又分成多個區。這種分區裡面的分區,就叫做”邏輯分區”(logical partition)。
電腦先讀取擴充分區的第一個扇區,叫做”擴充引導記錄”(Extended boot record,縮寫為EBR)。它裡面也包含一張64位元組的分區表,但是最多隻有兩項(也就是兩個邏輯分區)。
電腦接著讀取第二個邏輯分區的第一個扇區,再從裡面的分區表中找到第三個邏輯分區的位置,以此類推,直到某個邏輯分區的分區表只包含它自身為止(即只有一個分區項)。因此,擴充分區可以包含無數個邏輯分區。
但是,似乎很少通過這種方式啟動作業系統。如果作業系統確實安裝在擴充分區,一般採用下一種方式啟動。
3.3 情況C:啟動管理器
在這種情況下,電腦讀取”主引導記錄”前面446位元組的機器碼之後,不再把控制權轉交給某一個分區,而是運行事先安裝的”啟動管理器”(boot loader),由使用者選擇啟動哪一個作業系統。
Linux環境中,目前最流行的啟動管理器是Grub。
對於grub而言,在MBR中的446位元組的引導程式屬於GRUB的開始執行程式,通過這段程式,進一步執行stage1.5或是stage2的執行程式,將在下面詳細介紹執行過程。
其中stage1.5或是stage2便屬於階段2引導的過程了,stage2過程也是作為GRUB kernel的核心代碼出現。Stage1.5過程(對於GRUB而言存在stage1.5,GRUB2則不存在)的功能很單一,主要就是為了引導stage2過程服務。由於stage2過程的代碼存放在檔案系統下的boot分區目錄中,因此stage1.5過程就是需要提供一個檔案系統的環境,而該檔案系統環境需要保證系統可以找到stage2過程的檔案,那麼stage1.5階段提供的檔案系統需要是boot檔案系統所對應的,這個在執行grub install過程中就已經確定了。stage2過程中,主要會把系統切換到保護模式,設定好C運行時環境,找到config檔案(事實上就是menulist檔案),如果沒有找到就執行一個shell,等待使用者的執行。然後的工作就變成了輸入命令->解析命令->執行命令的迴圈中。當然該階段引導的最終狀態就是執行boot命令,將核心和initrd鏡像載入進入記憶體中,進而將控制權轉交給核心。
四、第四階段:作業系統
控制權轉交給作業系統後,作業系統的核心首先被載入記憶體。
以Linux系統為例,先載入/boot目錄下面的kernel。核心載入成功後,第一個啟動並執行程式是/sbin/init。它根據設定檔(Debian系統是/etc/initab)產生init進程。這是Linux啟動後的第一個進程,pid進程編號為1,其他進程都是它的後代。
然後,init線程載入系統的各個模組,比如視窗程序和網路程式,直至執行/bin/login程式,跳出登入介面,等待使用者輸入使用者名稱和密碼。
至此,全部啟動過程完成。
另外在大磊的部落格中還有許多細節部分:
BIOS啟動細節:
a) 按下電源開關,電源就開始向主板和其它裝置供電;當晶片集檢測到電源已經開始穩定供電了(當然從不穩定到穩定的過程只是一瞬間的事情),它便撤去RESET訊號(如果是手工按下電腦面板上的Reset按鈕來重啟機器,那麼鬆開該按鈕時晶片集就會撤去RESET訊號);CPU馬上就從地址FFFF:0000H 處開始執行指令,放在這裡的只是一條跳轉指令,跳到系統BIOS中真正的啟動代碼處。
b) 系統BIOS的啟動代碼首先進行POST(Power-On Self Test,加電後自檢)。POST的主要檢測系統中一些關鍵裝置是否存在和能否正常工作,例如記憶體和顯卡等裝置;由於POST是最早進行的檢測過程,此時顯卡還沒有初始化,如果系統BIOS在進行POST的過程中發現了一些致命錯誤,例如沒有找到記憶體或者記憶體有問題(此時只會檢查640K常規記憶體),那麼系統BIOS就會直接控制喇叭發聲來報告錯誤,聲音的長短和次數代表了錯誤的類型;在正常情況下,POST過程進行得非常快,幾乎無法感覺到它的存在。POST結束之後就會調用其它代碼來進行更完整的硬體檢測。
c) 接下來系統BIOS將尋找顯卡的BIOS。前面說過,存放顯卡BIOS的ROM晶片的起始地址通常設在C0000H處,系統BIOS在這個地方找到顯卡BIOS之後就調用它的初始化代碼,由顯卡BIOS來初始化顯卡。此時多數顯卡都會在螢幕上顯示出一些初始化資訊,介紹生產廠商、圖形晶片類型等內容,不過這個畫面幾乎是一閃而過。系統BIOS接著會尋找其它裝置的BIOS程式,找到之後同樣要調用這些BIOS內部的初始化代碼來初始化相關的裝置。
d) 尋找完所有其它裝置的BIOS之後,系統BIOS將顯示出它自己的啟動畫面,其中包括有系統BIOS的類型、序號和版本號碼等內容。
e) 接著系統BIOS將檢測和顯示CPU的類型和工作頻率,測試所有的RAM,並同時在螢幕上顯示記憶體測試的進度。可以在CMOS設定中自行決定使用簡單耗時少或者詳細耗時多的測試方式。
f) 記憶體測試通過之後,系統BIOS將開始檢測系統中安裝的一些標準硬體裝置,包括硬碟、CD-ROM、串口、並口和軟碟機等裝置,另外絕大多數較新版本的系統BIOS在這一過程中還要自動檢測和設定記憶體的定時參數、硬碟參數和訪問模式等。
g) 標準裝置檢測完畢後,系統BIOS內部支援隨插即用的代碼將開始檢測和配置系統中安裝的隨插即用裝置。每找到一個裝置之後,系統BIOS都會在螢幕上顯示出裝置的名稱和型號等資訊,同時為該裝置分配中斷、DMA通道和I/O連接埠等資源。
h) 到這一步為止,所有硬體都已經檢測配置完畢了,多數系統BIOS會重新清屏並在螢幕上方顯示出一個表格,其中概略地列出了系統中安裝的各種標準硬體裝置,以及它們使用的資源和一些相關工作參數。
i) 接下來系統BIOS將更新ESCD(Extended System Configuration Data,擴充系統配置資料)。ESCD是系統BIOS用來與作業系統交換硬體設定資訊的一種手段,這些資料被存放在CMOS(一小塊特殊的RAM,由主板上的電池來供電)之中。通常ESCD資料只在系統硬體設定發生改變後才會更新,所以不是每次啟動機器時都能夠看到“Update ESCD… Success”這樣的資訊。不過,某些主板的系統BIOS在儲存ESCD資料時使用了與Windows 9x不相同的資料格式,於是Windows 9x在它自己的啟動過程中會把ESCD資料修改成自己的格式。但在下一次啟動機器時,即使硬體設定沒有發生改變,系統BIOS也會把ESCD的資料格式改回來。如此迴圈,將會導致在每次啟動機器時,系統BIOS都要更新一遍ESCD,這就是為什麼有些機器在每次啟動時都會顯示出相關資訊的原因。
j) ESCD更新完畢後,系統BIOS的啟動代碼將進行它的最後一項工作:即根據使用者指定的啟動順序從磁碟片、硬碟或光碟機啟動MBR。在這個過程中會按照啟動順序順序比較其放置MBR的位置的結尾兩位是否為0xAA55,通過這種方式判斷從哪個引導裝置進行引導。在確定之後,將該引導裝置的MBR內容讀入到0x7C00[1]的位置,並再次判斷其最後兩位,當檢測正確之後,進行階段1的引導。
EFI啟動細節
與傳統MBR相比,GPT採用了不同的分區方式。
對於傳統MBR,其結構主要如下:
即對上文中所述的很形象的說明,在圖中看到MBR被分成三個部分,分別是:Bootloader、分別表以及Magic Number。其中Bootloader部分為stage1中被執行的起始部分。
相反,對於EFI系統中所採用的GPT分區方式,則採用了不同於MBR分區方式的形式,從中可以發現:
如所示,GPT分區表主要包括:保護MBR、首要GPT頭、首要GPT、備用GPT、備用GPT頭和磁碟資料區。保護MBR與正常的MBR區別不大,主要是分區表上的不同,在保護MBR中只要一個表示為0xEE的分區,以此來表示這塊硬碟使用GPT分區表。首要GPT頭包含了眾多資訊,具體內容如下:
分區表頭定義了硬碟的可用空間以及組成分區表的項的大小和數量。分區表頭還記錄了這塊硬碟的GUID,記錄了分區表頭本身的位置和大小(位置總是在LBA1)以及備份分區表頭和分區表的位置和大小(在硬碟的最後)。它還儲存著它本身和分區表的CRC32校正。韌體、引導程式和作業系統在啟動時可以根據這個校正值來判斷分區表是否有錯誤,如果出錯了,可以使用軟體從硬碟最後的備份GPT分區表恢複整個分區表,如果備份GPT也校正錯誤,那麼磁碟將不可用,系統拒絕啟動。
接下來主要是128個分區表項,GPT分區表使用簡單而直接的方式表示分區。一個分區表項的前16位元組是分區類型GUID。例如,EFI系統磁碟分割的GUID類型是{C12A7328-F81F-11D2-BA4B-00A0C93EC93B} 。接下來的16位元組是該分區的唯一的GUID(這個指的是該分區本身,而之前的GUID指的是該分區的類型)。在接下來是分區其實和末尾的64位LBA編號,以及分區的名字和屬性。具體結構如下表:
MBR引導
接下來開始真正的引導過程了,主要說明GRUP的引導。總體上GRUB更像是一個mini os,只不過這個mini os的作用只是載入其他的作業系統,在GRUB中包括stage1、stage1.5(可選)和stage2,其中stage1和stage1.5屬於boot loader,stage2屬於mini os的核心部分。GRUB中stage1過程主要位於MBR的前446位元組中(對於支援GPT分區的磁碟,同樣有最開始的512位元組作為保護MBR,保護MBR與正常的MBR區別不大,主要是分區表上的不同,在保護MBR中只要一個表示為0xEE的分區,以此來表示這塊硬碟使用GPT分區表,不能識別GPT硬碟的作業系統通常會識別出一個未知類型的分區,並且拒絕對硬碟進行操作),之後的64位元組為硬碟的分區表,最後兩個位元組為MBR結束標誌位(0xAA55)。
stage1部分佔用了446位元組,其代碼檔案是源碼目錄下stage1/stage1.S檔案,彙編後產生一個512位元組的boot.img,被寫在硬碟的0面0道1扇區中,作為硬碟的MBR。stage1的工作很簡單,就是載入0面0道2扇區上的512位元組到0×8000,然後跳轉到0×8000執行。
在0面0道2扇區上的512位元組內容為stage1/start.S檔案彙編後產生。該扇區上的內容的作用是載入stage1.5或是stage2過程,並將控制權轉交。
Grub引導
在start過程將控制權轉交後,接下來就是GRUB的核心過程了。該過程之所以區分stage1.5和stage2,主要原因是GRUB和GRUB2的區別。在GRUB2中,將stage1.5過程整合到了stage2的過程中,所以stage1.5過程僅僅是針對GRUB的。下面將會分別介紹兩種GRUB版本的兩種過程。
4.1 GRUB中stage1.5過程
Stage1.5過程很無辜,它的作用很單一,但是非常關鍵。它的主要功用就是構造一個boot分區系統對應的檔案系統,這樣可以通過檔案系統的路徑(/boot/grub/)尋找stage2過程需要的core.img,進而載入到記憶體中開始執行。
Stage1.5存在於0面0道3扇區開始的地方,並一直延續十幾k位元組的地區,具體的大小與相應的檔案系統的大小有關(文中涉及到了0面0道1-3+x扇區,這部分扇區為保留扇區,BIOS不會放置任何資料。正因為如此如果轉換到GPT分區形式,系統將不能被正確引導,如上文所示,MBR後面的扇區都被其他內容所佔據)。Stage1.5過程被構建成多種不同類型,但是功能類似,下面簡單介紹一下基本的stage1.5過程的檔案系統。e2fs_stage1_5(針對ext2fs,可引導ext2和ext3檔案系統)、fat_stage1_5(針對fat檔案系統,可引導fat32和fat16)、ffs_stage1_5、jfs_stage1_5、minix_stage1_5、reiserfs_stage1_5、vstafs_stage1_5和xfs_stage1_5,這些檔案被稱為stage1.5過程,這些檔案每個至少都在11k以上。除此之外還有兩個比較特殊的檔案,分別為nbgrub和pxegrub,這兩個檔案主要是在網路引導時使用,只是格式不同而已,他們很類似與stage2,只是需要建立網路來擷取設定檔。
由於stage1.5過程中會涉及到多個檔案系統對應的檔案,因此本文中主要以ext2fs為例進行說明,其他檔案系統與此類似,可以同樣進行分析理解。
對於ext2fs檔案系統,用於產生該檔案系統的stage1.5過程檔案(e2fs_stage1_5)的代碼為stage2/fsys_ext2fs.c檔案。
在stage2/filesys.h檔案中定義了每個檔案系統對外的介面,用於上層調用,作為stage2過程尋找核心代碼使用,檔案系統一般被定義的介面主要就是三個函數,分別是mount、read和dir函數。對應ext2fs,其定義的函數為:
12345678 |
#ifdef FSYS_EXT2FS#define FSYS_EXT2FS_NUM 1int ext2fs_mount (void);int ext2fs_read (char *buf, int len);int ext2fs_dir (char *dirname);#else#define FSYS_EXT2FS_NUM 0#endif
|
針對ext2fs有如上的函數名稱,每個函數將具體在stage2/fsys_ext2fs.c檔案中被定義,這裡面沒有包含任何的寫的過程,對於bootloader而言僅僅讀就可以完成任務了,沒必要對其系統進行寫操作。其中ext2fs_mount函數用於檢查檔案系統類型,並將superblock讀入到記憶體中;ext2fs_read函數和ext2fs_dir函數用於對檔案系統具體的操作。在stage2/fsys_ext2fs.c檔案中除了需要對這三個函數的定義之外,還需要檔案系統的屬性的資料結構(superblock、inode和group結構,這些結構最初被定義在include/linux/ext2_fs.h檔案中),通過這些資料結構描述一個檔案系統。
如果讀者有興趣可以試著建立新的檔案系統的支援,可以參照目前存在的一些檔案系統的模板(執行個體)編寫。
4.2 GRUB中stage2過程
GRUB中的核心過程也就是stage2過程了,該過程主要是在檔案系統建立以後選擇合適的作業系統進行載入並轉交控制權,達到最後引導作業系統的目標。由於GRUB屬於multi boot loader,因此在引導的時候要進行選擇,選擇哪種作業系統來運行。在GRUB內部主要包括兩種方式,首先是從menu.list中讀取顯示到螢幕讓使用者選擇,其次是通過grub-shell中定義的命令手動進行啟動。本文將在後面介紹這兩種方式如何運行,接下來先介紹一下stage2的具體的執行過程。
在上面一節中介紹過,stage1.5過程中將boot分區的檔案系統載入了,之後又做了一件事情,就是將控制權轉交給stage2,而stage2入口的地方就是stage2/asm.S檔案。Stage2/asm.S檔案屬於彙編代碼,主要作用是初始化C語言的運行環境,為下面執行C語言的函數做好準備,在準備好之後,將執行init_bios_info(stage2/common.c)函數。init_bios_info函數的作用是執行一些底層的函數,然後跳轉到cmain執行,cmain函數位於stage2/stage2.c檔案中。cmain函數內部進行一個死迴圈,在迴圈內部首先載入設定檔,顯示給使用者,在這同時迴圈一個內層迴圈,在內層迴圈中,擷取設定檔中的命令,並解析執行。過程中如果沒有可用的設定檔,那麼進入命令列模式(enter_cmdline函數),如果找到可用的menu,那麼開始執行menu的對應的內容(run_menu函數)。
對於enter_cmdline(stage2/stage2.c)函數,將調用find_command(stage2/cmdline.c),進而執行相應命令的函數。
對於run_menu(stage2/stage2.c)函數,將調用stage2/cmdline.c檔案中的run_script函數,進而調用find_command,執行相應命令的函數。
這兩種方式雖然經過了不同的過程,對使用者輸入的行為進行分析和處理,最終調用的函數為find_command,在該函數中順序迴圈比較“輸入”的命令是否與系統內部定義的相同,如果相同轉到執行該函數。在這個比較的過程中包含了一個全域的資料結構為struct builtin(stage2/shared.h),由該資料結構組成了一個table類型(stage2/builtins.c),將命令與相對應的builtin結構對應一起並進行串聯。下面描述一下builtin結構的定義:
1234567891011121314 |
struct builtin { /* 命令名稱,重要,是搜尋命令時的依據*/ char *name; /* 命令函數,重要,是搜尋匹配後調用的函數*/ int (*func) (char *, int); /* 功能標示,一般未用到. */ int flags; /* 簡短協助資訊*/ char *short_doc; /* 完整協助資訊*/ char *long_doc;};struct builtin *builtin_table[];
|
有興趣的讀者可以對上面的內容進行擴充,形成自己的命令,主要在stage2/builtins.c檔案中按照預定的格式更新,並添加到builtin_table中即可。
在上面開啟設定檔的過程中,主要是通過一些檔案操作函數(被定義在stage2/disk_io.c中)完成。這些檔案操作函數主要包括:grub_open、grub_read、grub_seek和grub_close等,這些函數屬於grub對外的上層介面,具體的函數內部將調用前文中提到的boot分區對應的檔案系統的相應的函數完成,這個過程主要是通過回呼函數來完成。該過程整體思路類似於物件導向過程,通過對象操作具體的函數。
原文串連:http://blog.csdn.net/langeldep/article/details/8788119
os 電腦的啟動