有的時候,在腦海中停頓了很久的“顯而易見”的東西,其實根本上就是錯誤的。就拿下面的問題來看:
struct T
{
char ch;
int i ;
};
使用sizeof(T),將得到什麼樣的答案呢?要是以前,想都不用想,在32位機中,int是4個位元組,char是1個位元組,所以T一共是5個位元組。實 踐出真知,在VC6中測試了下,答案確實8個位元組。哎,反正受傷的總是我,我已經有點麻木了,還是老老實實的接受吧!為什麼答案和自己想象的有出入呢?這 裡將引入記憶體對齊這個概念。
許多實際的電腦系統對基本類型資料在記憶體中存放的位置有限制,它們會要求這些資料的首地址的值是某個數k(通常它為4或8)的倍數,這就是所謂的 記憶體對齊,而這個k則被稱為該資料類型的對齊模數(alignment modulus)。當一種類型S的對齊模數與另一種類型T的對齊模數的比值是大於1的整數,我們就稱類型S的對齊要求比T強(嚴格),而稱T比S弱(寬 松)。這種強制的要求一來簡化了處理器與記憶體之間傳輸系統的設計,二來可以提升讀取資料的速度。比如這麼一種處理器,它每次讀寫記憶體的時候都從某個8倍數 的地址開始,一次讀出或寫入8個位元組的資料,假如軟體能保證double類型的資料都從8倍數地址開始,那麼讀或寫一個double類型資料就只需要一次
記憶體操作。否則,我們就可能需要兩次記憶體操作才能完成這個動作,因為資料或許恰好橫跨在兩個符合對齊要求的8位元組記憶體塊上。某些處理器在資料不滿足對齊要 求的情況下可能會出錯,但是Intel的IA32架構的處理器則不管資料是否對齊都能正確工作。不過Intel奉勸大家,如果想提升效能,那麼所有的程式 資料都應該儘可能地對齊。
ANSI C標準中並沒有規定,相鄰聲明的變數在記憶體中一定要相鄰。為了程式的高效性,記憶體對齊問題由編譯器自行靈活處理,這樣導致相鄰的變數之間可能會有一些填充 位元組。對於基礎資料型別 (Elementary Data Type)(int char),他們佔用的記憶體空間在一個確定硬體系統下有個確定的值,所以,接下來我們只是考慮結構體成員記憶體配置情況。
Win32平台下的微軟C編譯器(cl.exe for 80×86)的對齊策略:
1) 結構體變數的首地址能夠被其最寬基本類型成員的大小所整除;
備忘:編譯器在給結構體開闢空間時,首先找到結構體中最寬的基礎資料型別 (Elementary Data Type),然後尋找記憶體位址能被該基礎資料型別 (Elementary Data Type)所整除的位置,作為結構體的首地址。將這個最寬的基礎資料型別 (Elementary Data Type)的大小作為上面介紹的對齊模數。
2) 結構體每個成員相對於結構體首地址的位移量(offset)都是成員大小的整數倍,如有需要編譯器會在成員之間加上填充位元組(internal adding);
備忘:為結構體的一個成員開闢空間之前,編譯器首先檢查預開闢空間的首地址相對於結構體首地址的位移是否是本成員的整數倍,若是,則存放本成員,反之,則在本成員和上一個成員之間填充一定的位元組,以達到整數倍的要求,也就是將預開闢空間的首地址後移幾個位元組。
3) 結構體的總大小為結構體最寬基本類型成員大小的整數倍,如有需要,編譯器會在最末一個成員之後加上填充位元組(trailing padding)。
備忘:結構體總大小是包括填充位元組,最後一個成員滿足上面兩條以外,還必須滿足第三條,否則就必須在最後填充幾個位元組以達到本條要求。
根據以上準則,在windows下,使用VC編譯器,sizeof(T)的大小為8個位元組。
而在GNU GCC編譯器中,遵循的準則有些區別,對齊模數不是像上面所述的那樣,根據最寬的基礎資料型別 (Elementary Data Type)來定。在GCC中,對齊模數的準則是:對齊模數最大隻能是 4,也就是說,即使結構體中有double類型,對齊模數還是4,所以對齊模數只能是1,2,4。而且在上述的三條中,第2條裡,offset必須是成員 大小的整數倍,如果這個成員大小小於等於4則按照上述準則進行,但是如果大於4了,則結構體每個成員相對於結構體首地址的位移量(offset)只能按照 是4的整數倍來進行判斷是否添加填充。
看如下例子:
struct T
{
char ch;
double d ;
};
那麼在GCC下,sizeof(T)應該等於12個位元組。
如果結構體中含有位域(bit-field),那麼VC中準則又要有所更改:
1) 如果相鄰位域欄位的類型相同,且其位寬之和小於類型的sizeof大小,則後面的欄位將緊鄰前一個欄位儲存,直到不能容納為止;
2) 如果相鄰位域欄位的類型相同,但其位寬之和大於類型的sizeof大小,則後面的欄位將從新的儲存單元開始,其位移量為其類型大小的整數倍;
3) 如果相鄰的位域欄位的類型不同,則各編譯器的具體實現有差異,VC6採取不壓縮方式(不同位域欄位存放在不同的位域類型位元組中),Dev-C++和GCC都採取壓縮方式;
備忘:當兩欄位類型不一樣的時候,對於不壓縮方式,例如:
struct N
{
char c:2;
int i:4;
};
依然要滿足不含位域結構體記憶體對齊準則第2條,i成員相對於結構體首地址的位移應該是4的整數倍,所以c成員後要填充3個位元組,然後再開闢4個位元組的空間 作為int型,其中4位用來存放i,所以上面結構體在VC中所佔空間為8個位元組;而對於採用壓縮方式的編譯器來說,遵循不含位域結構體記憶體對齊準則第2 條,不同的是,如果填充的3個位元組能容納後面成員的位,則壓縮到填充位元組中,不能容納,則要單獨開闢空間,所以上面結構體N在GCC或者Dev-C++中 所佔空間應該是4個位元組。
4) 如果位域欄位之間穿插著非位域欄位,則不進行壓縮;
備忘:
結構體
typedef struct
{
char c:2;
double i;
int c2:4;
}N3;
在GCC下佔據的空間為16位元組,在VC下佔據的空間應該是24個位元組。
5) 整個結構體的總大小為最寬基本類型成員大小的整數倍。
ps:
對齊模數的選擇只能是根據基礎資料型別 (Elementary Data Type),所以對於結構體中嵌套結構體,只能考慮其拆分的基礎資料型別 (Elementary Data Type)。而對於對齊準則中的第2條,確是要將整個結構體看成是一個成員,成員大小按照該結構體根據對齊準則判斷所得的大小。
類對象在記憶體中存放的方式和結構體類似,這裡就不再說明。需要指出的是,類對象的大小隻是包括類中非靜態成員變數所佔的空間,如果有虛函數,那麼再另外增加一個指標所佔的空間即可。
例如
union DATE
{
double i;
int k[5];
char c;
};
struct data
{
char cat;
union DATE cow;
char dog;
}too;
printf("%d %d \n",sizeof(struct data),sizeof(max));
輸出為: 40 24
這是因為對於DATA共用體而言,結構體的對齊模數為8(double),但是由於共用體的特點,分配空間是應該以int k[5]為依據分配,則應該分配20+4(結構體對齊)=24個位元組。
在data結構體中union DATA cow應該依據union DATA中最寬的基礎資料型別 (Elementary Data Type)(double)作為對齊模數,這裡顯然是8.那麼整個struct data的對齊模式也應該是8.所以data所佔的空間為8+24+8=40個位元組