標籤:style blog http 使用 資料 io 問題 cti
C/C++中, 浮點數,float以及 double 在記憶體中是怎樣儲存的?
假如,我有32-bit
8bit 8bit 8bit 0 0 0 0 0 1 1 1 1
對於整形int,我們可以很快得出,這是 int i = 15的記憶體形式。
假設,最低位的bit的位權為-1,最高位為30。 那麼這個就不再表示數字15了,而是
2^-1+2^0+2^1+2^2 = 7.5 了。
當然,上面只是假設,那麼真正的Float 浮點型 在記憶體中是什麼樣子的呢?
首先需要知道的是 float 在記憶體中 占 32-bit double型 占 64-bit。
浮點型 在記憶體中,有3部分構成。
Sign bit
Exponent (指數)
Mantissa(尾數,有效數字)
sign bit
是指浮點數在記憶體中的 最高位,0 表示 正數,1 表示負數。Sing bit 在浮點數float,32-bit記憶體中,占 1-bit 。
Exponent
指數,比如 10^5,2^6,這兩個數的 5,6既是exponent。當然,數字在記憶體中都是以2進位體現的,所以這裡的指數,是指以2為底 的指數。比如
0 0 0 0 0 1 1 0
很容易可以知道 Exponent為 6,在表示浮點數的記憶體中,表示的是 2^6 = 64。
Expoent 在 Float 32-bit的記憶體中,佔8-bit,在這裡把此8-bit視為表示unsigned int 的bit pattern。那麼可以表示的範圍是0~256的整數(指數範圍), 但是指數既可以為正整數,也可以為負整數,這樣以來無法表示-1,-2....這樣的負整數了,所以 IEEE Standard 754 Floating-Point 對此引入了Bias, 位移量的概念,對於Float型,此位移量為127. 也就是說 127 這個數字已經被儲存到 Exponent這個部分中了,像之前的那個例子,
0 0 0 0 0 1 1 0
表示的是指數6,但是在float記憶體結構中,其實表示的是 (6-127)= -121。需要減去已存入的位移量 127。
假如 2^(1),指數1在float 的記憶體結構中的 bit pattern是什麼樣子的?
那會不會就是簡單的
0 0 0 0 0 0 0 1
應該是 exponent - 127 = 1;(2^(1)中的指數1是這樣得來的)
exponent = 127+1 = 128.(2^(1)中的指數1,在float記憶體結構中應該是128的bit pattern才對)
1 0 0 0 0 0 0 0
這隻是個例子,協助理解exponent,不會真的問這樣的問題。。。。
Double型,需要佔用64-bit 記憶體空間。同樣,也是由 Sign bit,Exponent,Mantissa 3部分構成,不過 Exponent部分,在整個64-bit中 要佔到 11-bit。此外位移量 為1023。
Mantissa
Mantissa 尾數部分,在float的32-bit的記憶體空間中,佔到23-bit注意之前說的exponent 指數,最低位是從0開始的,那麼Mantissa,尾數的最高位當然是 -1了。
0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
那麼大家說下,上面的尾數部分在 float 浮點數的記憶體中,表示多少? 很快可以得到是
2^(-2)+2^(-3) = 0.375。 有錯了,應該是1.375。
大家回想下小學學的 科學記號標記法,5 = 5.0*10^0 , 0.75 = 7.5*10^(-1)。對吧?
在Float的記憶體表示中,這23-bit的尾數 僅僅表示 科學記號標記法 中 非零實數小數點後的精度。 換句話說,Mantissa 包括兩部分,一個是leading bit(科學記號標記法的非零實數),另一個是fraction bits(即精度),此23-bit僅僅表示的是 fraction bits。而在二進位中,非零實數自然是1了,所以leading bit預設是1了。所以上述表格實際上是表示
引用
1 + 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
這也就是為什麼,在float的記憶體中,尾數部分可以用23-bit pattern 來表示出24-bit的不同數字了。
在Double型的 64-bit 記憶體結構中,尾數部分要佔到52-bit。
我們用個表格來表示 在記憶體中,float是怎樣儲存的。
+/-Sign Exponent 指數 Fraction bit -> .f
s <---------------- 8 ----------------> <-------------------------------------- 23----------------------------->
Unsigned int 2^(-1), 2^(-2), 2^(-3)............
上面這個表格所要 表示的是如下的浮點數
(-1)^s * 1.f * 2^(Exponent-127)
隨手寫了個32-bit pattern,
0 0 0 0 1 0 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2^8 2^0 2^-23
假如告訴你,這是一個浮點型的記憶體結構,那麼這個浮點數是多少呢?
這個浮點數可以很快的得到 (-1)^0*1.(2^-2+2^-3)*2^(2^1+2^2+2^4-127)。
以上是對Float double 型的記憶體結構的分析,前面http://chuansu.iteye.com/blog/1484742 提到了int short char之間的相互轉化,那麼Float Double與int的轉化又會發生什嗎?
首先說一下原,反,補,移碼. 移碼其實就等於補碼,只是符號相反. 對於正數而言,原,反,補碼都一樣, 對負數而言,反碼除符號位外,在原碼的基礎上按位取反,補碼則在反碼的基礎之上,在其最低位上加1,要求移碼時,仍然是先求補碼,再改符號.
浮點數分為float和double,分別佔4,8個位元組,即32,64位. 我僅以32位的float為例,並附帶說double.
在IEEE754標準中,規定,float的32位這樣分:
這裡應該注意三點: A,階碼是用移碼錶示的,這裡會有一個127的位移量,它的127相當於0,小於127時為負,大於127時為正,比如:10000001表示指數為129-127=2,表示真值為2^2,而01111110則表示2^(-1).
B, 尾數全都是小數點後面的數,
C, 但尾數中省略了一個1,因此尾數全為0時,也是1.0...00;
接下來只要說明幾個問題就明白了,以123.456為例,表示為二進位就是:N (2) = 1111011. 01110100101111001 ,這裡,會右移6位,得到N (2) = 1.111011 01110100101111001*2^6; 這種形式就可以用於中的表示格式了.
符號位(S) 0 |
階碼(E) 00000110 |
尾數(M)11101101110100101111001 |
注意到,上面的階碼第一位為0表正,尾數比N(2)表示的第一位少了個1,這就是上面說的預設為第一位為1. 由於在將十進位轉為二進位的過程中,常常不能正好轉得相等, (當然,像4.0這樣的就不會有損失,而1.0/3.0這樣的必然損失),所以就產生了浮點數的精度問題, 實際上,小數點後的23位位元,能影響的十進位數的前8位,這是為什麼呢?一般人在這時往往迷迷胡胡了,其實很簡單,在上面表示的尾數中,是二進位 的,小數點後有23位,最後一位的值為1時,它就是1/2^22=0.000000238實際取的時候肯定是0.0000002,也就是說,對於一個 float型的浮點數,其有效位元是從左至右數7位(包括預設的1才是7位),當到達上面這個第8位時,就不可靠了,但我們的VC6可以輸出最長的 1.0/3.0為0.33333333333333331,這主要是編譯器的問題了, 而並不是說浮點數小數點後的16位都有效. 如果不信的話,可以去試一下double類型的1.0/3.0, 得到的也將是小數點後17 位. ..另外,編譯器或電路板一般都有"去雜訊"的"修正"能力,它能夠使得超過7位的十進位數即使無效了也不會變得離譜,這也是上面為什麼一直都是輸出 333而不是345之類的,. 可以這樣試一下:
float f=123456789; cout<<f<<endl;//這裡肯定得到123456789.
這裡有一個被人遺忘的問題,就是10進位小數怎麼變為2進位小數,其實很簡單,就是將10進的小數部分不斷乘以2,進位時就將對應的2進位位寫入1. 因此將上面的N (2) = 1.111011 01110100101111001*2^6;再轉回十進位數時,很可能已經不再是123.456了. 好,精度問題應該說清楚了. 下面說示數範圍.
階碼的示數位元是8位移碼, 最大為127最小為-127,這裡的127用來作為2的指數,因此為2^127,約等於 1.7014*10^38, 而我們知道,float的示數範圍約為-3.4*10^38-------3.4*10^38, 這是因為尾數的24位(預設第一位為1)全為1是,非常接近2, 1.11..11很明顯約為2,因此浮點數的範圍就出來了.
double的情況與float完全相似,只是它的內在形式是
符號位(S) 1 |
階碼(E) 11 |
尾數(M) 52 |
主要的區別在於它的階碼有11位了, 這就有2^1023約等於 0.8572*10^308, 尾數53位約為2,故double的示數範圍約為 -1.7*10^308.------1.7*10^308. 至於其精度,同樣,1.0/2^51=4.4*10^(-16).小數點後15位有效,加上預設的那一位,因此對於double浮點數,從左至右的16位 數都是可靠的.
有時,我們會聽到"定點小數"這個詞,單片機(如手機等)一般只使用定點數,迷糊的時候,我們會以為 float a=23.4; 這種是定點小數, float a=2.34E1這種為浮點數,其實這是錯誤的, 上面只是同一個浮點數的不同表示,都是浮點數. 定點小數是有這種提法,認為整就是定點小數,小數點定在個位後面,小數部分為0.也可認為純小數是定點小數,但它只能表示小於1的純小數.
然後再說一下C/C++中的幾個函數, C++中預設輸出小數點後的5位小數,但可以設定,有兩種方法:調用setpression或者使用cout.pression,但效果是不同的:
float mm=123.456789f; cout<<mm<<endl; //123.457 雖說預設為不數點後5位,但只是整數部分只有一位才這樣. setprecision(10); //設定小數點後的位元,但當整數部分有兩位時,與預設情況沒什麼兩樣,不起作用. cout<<mm<<endl; //123.457 cout.precision(4); //設定總的位元. cout<<mm<<endl; //123.4 總之效果是比較怪的,個人認為雖然這樣顯得不夠確定,但實為硬體系統所限.無可厚非.
對於0的實際表示,有人認為+0一般能絕對為0,而-0則可能表示一個極小的數. 為此,本人想到了一種很好的驗證辦法,證明了不管+0還是-0,它都是2^(-127),代碼如下:
float fDigital = 0.0f; unsigned long nMem;// 臨時變數,用於儲存浮點數的記憶體資料 // 將記憶體按位複製到臨時變中,以便取用,此時的nMem並不等於fDigital了,它是按位複製的。 nMem = *(unsigned long*)&fDigital; cout<<nMem<<endl; //一般得到一個很大的整數.
bitset<32>mybit(nMem);//妙在此處,這裡的輸出就是32float的記憶體表示了.終於完全直觀地看到了. cout<<mybit<<endl; //00000000000000000000000000000000 用-0.0來試,也是如此.
如果你還認為上面那一長串的0表示的是絕對的0,那麼請重新看本文. 事實上,本人的這種做法是比較巧妙的,將上面的fDigital用任何其它浮點數表示,這個bitset數都可以反映出它的記憶體表示.
有移碼錶示階碼有是有原因的,主要是移碼便於對階操作,從而比較兩個浮點數的大小. 這裡要注意的是,階碼不能達到11111111的形式,IEEE規定,當編譯器遇到階碼為0XFF時,即調用溢出指令. 總之,階碼化為整數時,範圍是:-127~127.
最後,有一個往往高手也汗顏的地方,一定要記住,浮點數沒有無符號型的usinged float/double是錯誤的.
本人才疏學淺,歡迎批評指正.