接上回:http://blog.csdn.net/pennyliang/archive/2010/10/21/5956302.aspx
有時候我們希望在x86平台下獲得更加高的精度。如果我們想準確的知道一段程式,一個函數的執行時間,可以連續執行2次rdtsc,之間沒有一行代碼,來計算這兩段指令執行過程會有的cycle數,不同機器可能都會有不同,和機器的效能有關係,但和負載沒關係,也就是多進程,多線程情況下,連續兩個rdtsc之間不會插入很多cycle,這一點大家可以做實驗來驗證。
start = rdtsc();
end = rdtsc();
在獲得這個資料後,我們對一段代碼的執行時間就可以做一個更加精確的估計。我的測試機比較一般大約是100個cycle,
用100/(3000.164*1000*1000)=0.033微秒,約合33納秒,這個時間段幾乎是不會發生什麼進程切換的,因此可以認為計算的精度是可接受的。
RDTSC只在X86下有效,其餘平台會有類似指令來做準確計數,RDTSC指令的精度是可以接受的,裡面能插得cycle是很有限的。如果對計數要求沒那麼高,可以採用一些通用庫函數,當然你也可以用類似的方法來考察這些庫函數的精度,連續執行2次就行。
例如下面的代碼得到兩次rdtsc指令之間的cycle數。
#include <stdlib.h>
#include <stdio.h>
#if defined(__i386__)
static __inline__ unsigned long long rdtsc(void)
{
unsigned long long int x;
__asm__ volatile ("rdtsc" : "=A" (x));
return x;
}
#elif defined(__x86_64__)
static __inline__ unsigned long long rdtsc(void)
{
unsigned hi, lo;
__asm__ __volatile__ ("rdtsc" : "=a"(lo), "=d"(hi));
return ( (unsigned long long)lo)|( ((unsigned long long)hi)<<32 );
}
#endif
int main(void)
{
register int start = 0;
register int end = 0;
const int MAX_COUNT = 10000000;
volatile int sum = 0;
const float CPU_MHZ = 3000.164; //use cat /proc/cpuinfo get the value
const float CPU_tick_count_per_second = CPU_MHZ*1000*1000;
start = rdtsc();
end = rdtsc();
printf("sum:%d,run tick count:%d,run time:%f/n",sum,end - start,(end -start)/CPU_tick_count_per_second);
return 0;
}