float與double的範圍和精度

來源:互聯網
上載者:User
文章目錄
  • 1 範圍
  • 2 精度

float與double的範圍和精度

原文:http://blog.csdn.net/wuna66320/article/details/1691734

1 範圍

float和double的範圍是由指數的位元來決定的。

float的指數位有8位,而double的指數位有11位,分布如下:

float:

1bit(符號位)

8bits(指數位)

23bits(尾數位)

double:

1bit(符號位)

11bits(指數位)

52bits(尾數位)

在數學中,特別是在電腦相關的數字(浮點數)問題的表述中,有一個基本表達法[1]:

 value of floating-point

= significand x base ^ exponent , with sign --- F.1

  譯為中文表達即為:

 (浮點)數值 =      尾數    ×    底數 ^ 指數,(附加加號或減號)---------------- F.2

於是,float的指數範圍為-127~128,而double的指數範圍為-1023~1024,並且指數位是按補碼的形式來劃分的。其中負指數決定了浮點數所能表達的絕對值最小的數;而正指數決定了浮點數所能表達的絕對值最大的數,也即決定了浮點數的取值範圍。

float的範圍為-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的範圍為-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。

2 精度

float和double的精度是由尾數的位元來決定的。浮點數在記憶體中是按科學計數法來儲存的,其整數部分始終是一個隱含著的“1”,由於它是不變的,故不能對精度造成影響。

float:2^23 = 8388608,一共七位,這意味著最多能有7位有效數字,但絕對能保證的為6位,也即float的精度為6~7位有效數字;

double:2^52 = 4503599627370496,一共16位,同理,double的精度為15~16位。

單精確度類型(float)和雙精確度類型(double)儲存

2009-11-24 13:57

C 語言和C#語言中,對於浮點類型的資料採用單精確度類型(float)和雙精確度類型(double)來儲存,float資料佔用32bit, double資料佔用64bit,我們在聲明一個變數float f= 2.25f的時候,是如何分配記憶體的呢?如果胡亂分配,那世界豈不是亂套了麼,其實不論是float還是double在儲存方式上都是遵從IEEE的規範 的,float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

    無論是單精確度還是雙精確度在儲存中都分為三個部分:

  1. 符號位(Sign) : 0代表正,1代表為負
  2. 指數位(Exponent):用於儲存科學計數法中的指數資料,並且採用移位儲存
  3. 尾數部分(Mantissa):尾數部分

其中float的儲存方式如所示:

 

而雙精確度的儲存方式為:

 

     R32.24和R64.53的儲存方式都是用科學計數法來儲存資料的,比如8.25用十進位的科學計數法表示就為:8.25*100,而120.5可以表示為:1.205*102, 這些小學的知識就不用多說了吧。而我們傻蛋電腦根本不認識十進位的資料,他只認識0,1,所以在電腦儲存中,首先要將上面的數更改為二進位的科學計數 法表示,8.25用二進位表示可表示為1000.01,我靠,不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進位表示為:1110110.1用 二進位的科學計數法表示1000.01可以表示為1.0001*23,1110110.1可以表示為1.1101101*26,任何一個數都的科學計數法表示都為1.xxx*2n, 尾數部分就可以表示為xxxx,第一位都是1嘛,幹嘛還要表示呀?可以將小數點前面的1省略,所以23bit的尾數部分,可以表示的精度卻變成了 24bit,道理就是在這裡,那24bit能精確到小數點後幾位呢,我們知道9的二進位表示為1001,所以4bit能精確十進位中的1位小數點, 24bit就能使float能精確到小數點後6位,而對於指數部分,因為指數可正可負,8位的指數位能表示的指數範圍就應該為:-127-128了,所以 指數部分的儲存採用移位儲存,儲存的資料為中繼資料+127,下面就看看8.25和120.5在記憶體中真正的儲存方式。

     首先看下8.25,用二進位的科學計數法表示為:1.0001*23

按照上面的儲存方式,符號位為:0,表示為正,指數位為:3+127=130 ,位元部分為,故8.25的儲存方式如所示:

 

而單精確度浮點數120.5的儲存方式如所示:

 

那 麼如果給出記憶體中一段資料,並且告訴你是單精確度儲存的話,你如何知道該資料的十進位數值呢?其實就是對上面的反推過程,比如給出如下記憶體 資料:0100001011101101000000000000,首先我們現將該資料分段,0 10000 0101 110 1101 0000 0000 0000 0000,在記憶體中的儲存就為所示:

 

根據我們的計算方式,可以計算出,這樣一組資料表示為:1.1101101*26=120.5

而雙精確度浮點數的儲存和單精確度的儲存大同小異,不同的是指數部分和尾數部分的位元。所以這裡不再詳細的介紹雙精確度的儲存方式了,只將120.5的最後儲存方式圖給出,大家可以仔細想想為何是這樣子的

 

下面我就這個基礎知識點來解決一個我們的一個疑惑,請看下面一段程式,注意觀察輸出結果

            float f = 2.2f;

            double d = (double)f;

            Console.WriteLine(d.ToString("0.0000000000000"));

            f = 2.25f;

            d = (double)f;

            Console.WriteLine(d.ToString("0.0000000000000"));

可 能輸出的結果讓大家疑惑不解,單精確度的2.2轉換為雙精確度後,精確到小數點後13位後變為了2.2000000476837,而單精確度的 2.25轉換為雙精確度後,變為了2.2500000000000,為何2.2在轉換後的數值更改了而2.25卻沒有更改呢?很奇怪吧?其實通過上面關於兩 種儲存結果的介紹,我們已經大概能找到答案。首先我們看看2.25的單精確度儲存方式,很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精確度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候,數值是不會變的,而我們再看看2.2呢,2.2用科學計數法表示應該為:將十進位的小數轉換為二進位的小數 的方法為將小數*2,取整數部分,所以0.282=0.4,所以二進位小數第一位為0.4的整數部分0,0.4×2=0.8,第二位為0,0.8*2= 1.6,第三位為1,0.6×2 = 1.2,第四位為1,0.2*2=0.4,第五位為0,這樣永遠也不可能乘到=1.0,得到的二進位是一個無限迴圈的排列 00110011001100110011... ,對於單精確度資料來說,尾數只能表示24bit的精度,所以2.2的float儲存為:

 

但 是這樣儲存方式,換算成十進位的值,卻不會是2.2的,應為十進位在轉換為二進位的時候可能會不準確,如2.2,而double類型的數 據也存在同樣的問題,所以在浮點數表示中會產生些許的誤差,在單精確度轉換為雙精確度的時候,也會存在誤差的問題,對於能夠用二進位表示的十進位資料,如 2.25,這個誤差就會不存在,所以會出現上面比較奇怪的輸出結果。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.