記憶體對齊的重要性大家都知道, 那麼記憶體不對齊, 對效能有多大的影響? 本文做個小實驗:
#include <stdio.h>#include <stdlib.h>#include "ctimer.h"int main(){ char buf[512]; printf("buf[0]'s addr [%x][%d]\n", (int)(char*)&buf[0],(int)(char*)&buf[0]); printf("buf[1]'s addr [%x][%d]\n", (int)(char*)&buf[1],(int)(char*)&buf[1]); CMyTimer t1; int tmp = 0; int count = 1000000; memset(buf, sizeof(buf), 0); t1.Begin(); for (int i=0; i<count; ++i) { for (int j=1;j<(sizeof(buf)-4);j+=4) { tmp = *(int*)&buf[j]; tmp++; *(int*)&buf[j] = tmp; } } printf("use time : %5.1f\n", t1.GetElapseTimeMS()); memset(buf, sizeof(buf), 0); t1.Begin(); for (int i=0; i<count; ++i) { for (int j=2;j<(sizeof(buf)-4);j+=4) { tmp = *(int*)&buf[j]; tmp++; *(int*)&buf[j] = tmp; } } printf("use time : %5.1f\n", t1.GetElapseTimeMS()); memset(buf, sizeof(buf), 0); t1.Begin(); for (int i=0; i<count; ++i) { for (int j=3;j<(sizeof(buf)-4);j+=4) { tmp = *(int*)&buf[j]; tmp++; *(int*)&buf[j] = tmp; } } printf("use time : %5.1f\n", t1.GetElapseTimeMS()); memset(buf, sizeof(buf), 0); t1.Begin(); for (int i=0; i<count; ++i) { for (int j=0;j<(sizeof(buf)-4);j+=4) { tmp = *(int*)&buf[j]; tmp++; *(int*)&buf[j] = tmp; } } printf("use time : %5.1f\n", t1.GetElapseTimeMS()); return 0;}
測試結果如下:
buf[0]'s addr [bfa26aac][-1079874900]buf[1]'s addr [bfa26aad][-1079874899]use time : 936.6use time : 979.9use time : 980.4use time : 769.9 // 可以看到對齊後的效果要好點
基本上 (980-770)/980 = 0.21. 有21%的效能差異.
程式邏輯解釋:
1) 首先在棧上申請buf, 一般情況下, buf的首地址都是記憶體對齊後的 (編譯器不會那麼傻, 給使用者在棧上分配一個地址不對齊的變數)
2) 然後做了4各個測試. 第一個測試, 錯位一個位元組, 每次讀取一個整形,再寫入一個整形. 後面依次錯位2,3,0位元組. 其中最後一次相當於沒有錯位.