關於浮點數的原理詳解

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

目錄

1. 什麼是浮點數

2. IEEE 浮點數

3. 實數和浮點數之間的變換

4. 特殊值

4.1. NaN
4.2. 無窮
4.3. 有符號的零
4.4. 非正常化數

5. 參考資料

1. 什麼是浮點數

在電腦系統的發展過程中，曾經提出過多種方法表達實數。典型的比如相對於浮點數的定點數（Fixed Point Number）。在這種表達方式中，小數點固定的位於實數所有數字中間的某個位置。貨幣的表達就可以使用這種方式，比如 99.00 或者 00.99 可以用於表達具有四位精度（Precision），小數點後有兩位的貨幣值。由於小數點位置固定，所以可以直接用四位元值來表達相應的數值。SQL 中的 NUMBER 資料類型就是利用定點數來定義的。還有一種提議的表達方式為有理數表達方式，即用兩個整數的比值來表達實數。

定點數表達法的缺點在於其形式過於僵硬，固定的小數點位置決定了固定位元的整數部分和小數部分，不利於同時表達特別大的數或者特別小的數。最終，絕大多數現代的電腦系統採納了所謂的浮點數表達方式。這種表達方式利用科學計數法來表達實數，即用一個尾數（Mantissa ），一個基數（Base），一個指數（Exponent）以及一個表示正負的符號來表達實數。比如 123.45 用十進位科學計數法可以表達為 1.2345 × 102 ，其中 1.2345 為尾數，10 為基數，2 為指數。浮點數利用指數達到了浮動小數點的效果，從而可以靈活地表達更大範圍的實數。

提示: 尾數有時也稱為有效數字（Significand）。尾數實際上是有效數位非正式說法。

同樣的數值可以有多種浮點數表達方式，比如上面例子中的 123.45 可以表達為 12.345 × 101，0.12345 × 103 或者 1.2345 × 102。因為這種多樣性，有必要對其加以正常化以達到統一表達的目標。規範的（Normalized）浮點數表達方式具有如下形式：

±d.dd...d × β e , (0 ≤ d i < β)

其中 d.dd...d 即尾數，β 為基數，e 為指數。尾數中數位個數稱為精度，在本文中用 p 來表示。每個數字 d 介於 0 和基數之間，包括 0。小數點左側的數字不為 0。

基於規範表達的浮點數對應的具體值可由下面的運算式計算而得：

±(d 0 + d 1β-1 + ... + d p-1β-(p-1))β e , (0 ≤ d i < β)

對於十進位的浮點數，即基數 β 等於 10 的浮點數而言，上面的運算式非常容易理解，也很直白。電腦內部的數值表達是基於二進位的。從上面的運算式，我們可以知道，位元同樣可以有小數點，也同樣具有類似於十進位的表達方式。只是此時 β 等於 2，而每個數字 d 只能在 0 和 1 之間取值。比如位元 1001.101 相當於 1 × 2 3 + 0 × 22 + 0 × 21 + 1 × 20 + 1 × 2-1 + 0 × 2-2 + 1 × 2-3，對應於十進位的 9.625。其規範浮點數表達為 1.001101 × 23。

2. IEEE 浮點數

電腦中是用有限的連續位元組儲存浮點數的。儲存這些浮點數當然必須有特定的格式，Java 平台上的浮點數類型 float 和 double 採納了 IEEE 754 標準中所定義的單精確度 32 位浮點數和雙精確度 64 位元浮點數的格式。

注意: Java 平台還支援該標準定義的兩種擴充格式，即 float-extended-exponent 和 double-extended-exponent 擴充格式。這裡將不作介紹，有興趣的讀者可以參考相應的參考資料。

在 IEEE 標準中，浮點數是將特定長度的連續位元組的所有二進位位分割為特定寬度的符號域，指數域和尾數域三個域，其中儲存的值分別用於表示給定二進位浮點數中的符號，指數和尾數。這樣，通過尾數和可以調節的指數（所以稱為"浮點"）就可以表達給定的數值了。具體的格式參見下面的圖例：

在上面的圖例中，第一個域為符號域。其中 0 表示數值為正數，而 1 則表示負數。

第二個域為指數域，對應於我們之前介紹的二進位科學計數法中的指數部分。其中單精確度數為 8 位，雙精確度數為 11 位。以單精確度數為例，8 位的指數為可以表達 0 到 255 之間的 255 個指數值。但是，指數可以為正數，也可以為負數。為了處理負指數的情況，實際的指數值按要求需要加上一個偏差（Bias）值作為儲存在指數域中的值，單精確度數的偏差值為 127，而雙精確度數的偏差值為 1023。比如，單精確度的實際指數值 0 在指數域中將儲存為 127；而儲存在指數域中的 64 則表示實際的指數值 -63。偏差的引入使得對於單精確度數，實際可以表達的指數值的範圍就變成 -127 到 128 之間（包含兩端）。我們不久還將看到，實際的指數值 -127（儲存為全 0）以及 +128（儲存為全 1）保留用作特殊值的處理。這樣，實際可以表達的有效指數範圍就在 -127 和 127 之間。在本文中，最小指數和最大指數分別用 emin 和 emax 來表達。

圖例中的第三個域為尾數域，其中單精確度數為 23 位長，雙精確度數為 52 位長。除了我們將要講到的某些特殊值外，IEEE 標準要求浮點數必須是規範的。這意味著尾數的小數點左側必須為 1，因此我們在儲存尾數的時候，可以省略小數點前面這個 1，從而騰出一個二進位位來儲存更多的尾數。這樣我們實際上用 23 位長的尾數域表達了 24 位的尾數。比如對於單精確度數而言，二進位的 1001.101（對應於十進位的 9.625）可以表達為 1.001101 × 23，所以實際儲存在尾數域中的值為 00110100000000000000000，即去掉小數點左側的 1，並用 0 在右側補齊。

值得注意的是，對於單精確度數，由於我們只有 24 位的指數（其中一位隱藏），所以可以表達的最大指數為 224 - 1 = 16,777,215。特別的，16,777,216 是偶數，所以我們可以通過將它除以 2 並相應地調整指數來儲存這個數，這樣 16,777,216 同樣可以被精確的儲存。相反，數值 16,777,217 則無法被精確的儲存。由此，我們可以看到單精確度的浮點數可以表達的十進位數值中，真正有效數字不高於 8 位。事實上，對相對誤差的數值分析結果顯示有效精度大約為 7.22 位。參考下面的樣本：

         true value                 stored value
         --------------------------------------
         16,777,215                 1.6777215E7
         16,777,216                 1.6777216E7
         16,777,217                 1.6777216E7
         16,777,218                 1.6777218E7
         16,777,219                 1.677722E7
         16,777,220                 1.677722E7
         16,777,221                 1.677722E7
         16,777,222                 1.6777222E7
         16,777,223                 1.6777224E7
         16,777,224                 1.6777224E7
         16,777,225                 1.6777224E7
         --------------------------------------

根據標準要求，無法精確儲存的值必須向最接近的可儲存的值進行舍入。這有點像我們熟悉的十進位的四捨五入，即不足一半則舍，一半以上（包括一半）則進。不過對於二進位浮點數而言，還多一條規矩，就是當需要舍入的值剛好是一半時，不是簡單地進，而是在前後兩個等距接近的可儲存的值中，取其中最後一位有效數字為零者。從上面的樣本中可以看出，奇數都被舍入為偶數，且有舍有進。我們可以將這種舍入誤差理解為"半位"的誤差。所以，為了避免 7.22 對很多人造成的困惑，有些文章經常以 7.5 位來說明單精確度浮點數的精度問題。

提示: 這裡採用的浮點數舍入規則有時被稱為舍入到偶數（Round to Even）。相比簡單地逢一半則進的舍入規則，舍入到偶數有助於從某些角度減小計算中產生的舍入誤差累積問題。因此為 IEEE 標準所採用。

2樓

昕晨發表於：2007-7-15 20:26:003. 實數和浮點數之間的變換

現在我們已經明白了浮點數的 IEEE 表達方式。我們來做些實數和浮點數之間的變換練習以加深理解。在這些練習中，你還會發現一些圍繞浮點數運算的令人吃驚的事實。

首先我們來看看事情簡單的一面，從浮點數變換到實數。理解了浮點數的格式，做這個練習並不難。假定我們有一個 32 位的資料，用十六進位表示為 0xC0B40000，並且我們知道它實際上是一個單精確度的浮點數。為了得到該浮點數實際表達的實數，我們首先將它變換為二進位形式：

   C     0     B     4     0     0     0     0
1100 0000 1011 0100 0000 0000 0000 0000

接著按照浮點數的格式切分為相應的域：

1   10000001 01101000000000000000000

符號域 1 意味著負數；指數域為 129 意味著實際的指數為 2 （減去偏差值 127）；尾數域為 01101 意味著實際的二進位尾數為 1.01101 （加上隱含的小數點前面的 1）。所以，實際的實數為：

-1.01101 × 22-(20 + 2-2 + 2-3 2-5) × 22-5.625

從實數向浮點數變換稍微麻煩一點。假定我們需要將實數 -9.625 表達為單精確度的浮點數格式。方法是首先將它用二進位浮點數表達，然後變換為相應的浮點數格式。

首先，將小數點左側的整數部分變換為其二進位形式，9 的二進位性形式為 1001。處理小數部分的演算法是將我們的小數部分乘以基數 2，記錄乘積結果的整數部分，接著將結果的小數部分繼續乘以 2，並不斷繼續該過程：

0.625 × 2 = 1.25         1
0.25   × 2 = 0.5          0
0.5    × 2 = 1            1
0

當最後的結果為零時，結束這個過程。這時右側的一列數字就是我們所需的二進位小數部分，即 0.101。這樣，我們就得到了完整的二進位形式 1001.101。用規範浮點數表達為 1.001101 × 23。

因為是負數，所以符號域為 1。指數為 3，所以指數域為 3 + 127 = 130，即二進位的 10000010。尾數省略掉小數點左側的 1 之後為 001101，右側用零補齊。最終結果為：

1 10000010 00110100000000000000000

最後可以將浮點數形式表示為十六進位的資料如下：

1100 0001 0001 1010 0000 0000 0000 0000
   C     1     1     A     0     0     0     0

最終結果為 0xC11A0000。

很簡單？等等！你可能已經注意到了，在上面這個我們有意選擇的樣本中，不斷的將產生的小數部分乘以 2 的過程掩蓋了一個事實。該過程結束的標誌是小數部分乘以 2 的結果為 1，不難想象，很多小數根本不能經過有限次這樣的過程而得到結果（比如最簡單的 0.1）。我們已經知道浮點數尾數域的位元是有限的，為此，浮點數的處理辦法是持續該過程直到由此得到的尾數足以填滿尾數域，之後對多餘的位進行舍入。換句話說，除了我們之前講到的精度問題之外，十進位到二進位的變換也並不能保證總是精確的，而只能是近似值。事實上，只有很少一部分十進位小數具有精確的二進位浮點數表達。再加上浮點數運算過程中的誤差累積，結果是很多我們看來非常簡單的十進位運算在電腦上卻往往出人意料。這就是最常見的浮點運算的"不準確"問題。參見下面的 Java 樣本：

System.out.print("34.6-34.0=" + (34.6f-34.0f));

這段代碼的輸出結果如下：

34.6-34.0=0.5999985

產生這個誤差的原因是 34.6 無法精確的表達為相應的浮點數，而只能儲存為經過舍入的近似值。這個近似值與 34.0 之間的運算自然無法產生精確的結果。

4. 特殊值

通過前面的介紹，你應該已經瞭解的浮點數的基本知識，這些知識對於一個不接觸浮點數應用的人應該足夠了。不過，如果你興趣正濃，或者面對著一個棘手的浮點數應用，可以通過本節瞭解到關於浮點數的一些值得注意的特殊之處。

我們已經知道，指數域實際可以表達的指數值的範圍為 -127 到 128 之間（包含兩端）。其中，值 -127（儲存為全 0）以及 +128（儲存為全 1）保留用作特殊值的處理。本節將詳細 IEEE 標準中所定義的這些特殊值。

浮點數中的特殊值主要用於特殊情況或者錯誤的處理。比如在程式對一個負數進行開平方時，一個特殊的傳回值將用於標記這種錯誤，該值為 NaN（Not a Number）。沒有這樣的特殊值，對於此類錯誤只能粗暴地終止計算。除了 NaN 之外，IEEE 標準還定義了 ±0，±∞ 以及非正常化數（Denormalized Number）。

對於單精確度浮點數，所有這些特殊值都由保留的特殊指數值 -127 和 128 來編碼。如果我們分別用 emin 和 emax 來表達其它常規指數值範圍的邊界，即 -126 和 127，則保留的特殊指數值可以分別表達為 emin - 1 和 emax + 1; 。基於這個表達方式，IEEE 標準的特殊值如下所示：

其中 f 表示尾數中的小數點右側的（Fraction）部分。第一行即我們之前介紹的普通的正常化浮點數。隨後我們將分別對餘下的特殊值加以介紹。

4.1. NaN

NaN 用於處理計算中出現的錯誤情況，比如 0.0 除以 0.0 或者求負數的平方根。由上面的表中可以看出，對於單精確度浮點數，NaN 表示為指數為 emax + 1 = 128（指數域全為 1），且尾數域不等於零的浮點數。IEEE 標準沒有要求具體的尾數域，所以 NaN 實際上不是一個，而是一族。不同的實現可以自由選擇尾數域的值來表達 NaN，比如 Java 中的常量 Float.NaN 的浮點數可能表達為 01111111110000000000000000000000，其中尾數域的第一位為 1，其餘均為 0（不計隱藏的一位），但這取決系統的硬體架構。Java 中甚至允許程式員自己構造具有特定位元模式的 NaN 值（通過 Float.intBitsToFloat() 方法）。比如，程式員可以利用這種定製的 NaN 值中的特定位元模式來表達某些診斷資訊。

定製的 NaN 值，可以通過 Float.isNaN() 方法判定其為 NaN，但是它和 Float.NaN 常量卻不相等。實際上，所有的 NaN 值都是無序的。數值比較操作符 <，<=，> 和 >= 在任一運算元為 NaN 時均返回 false。等於操作符 == 在任一運算元為 NaN 時均返回 false，即使是兩個具有相同位元模式的 NaN 也一樣。而操作符 != 則當任一運算元為 NaN 時返回 true。這個規則的一個有趣的結果是 x!=x 當 x 為 NaN 時竟然為真。

可以產生 NaN 的操作如下所示：

此外，任何有 NaN 作為運算元的操作也將產生 NaN。用特殊的 NaN 來表達上述運算錯誤的意義在於避免了因這些錯誤而導致運算的不必要的終止。比如，如果一個被迴圈調用的浮點運算方法，可能由於輸入的參數問題而導致發生這些錯誤，NaN 使得即使某次迴圈發生了這樣的錯誤，也可以簡單地繼續執行迴圈以進行那些沒有錯誤的運算。你可能想到，既然 Java 有異常處理機制，也許可以通過捕獲並忽略異常達到相同的效果。但是，要知道，IEEE 標準不是僅僅為 Java 而制定的，各種語言處理異常的機制不盡相同，這將使得代碼的遷移變得更加困難。何況，不是所有語言都有類似的異常或者訊號（Signal）處理機制。

注意: Java 中，不同於浮點數的處理，整數的 0 除以 0 將拋出 java.lang.ArithmeticException 異常。

4.2. 無窮

和 NaN 一樣，特殊值無窮（Infinity）的指數部分同樣為 emax + 1 = 128，不過無窮的尾數域必須為零。無窮用於表達計算中產生的上溢（Overflow）問題。比如兩個極大的數相乘時，儘管兩個運算元本身可以用儲存為浮點數，但其結果可能大到無法儲存為浮點數，而必須進行舍入。根據 IEEE 標準，此時不是將結果舍入為可以儲存的最大的浮點數（因為這個數可能離實際的結果相差太遠而毫無意義），而是將其舍入為無窮。對於負數結果也是如此，只不過此時舍入為負無窮，也就是說符號域為 1 的無窮。有了 NaN 的經驗我們不難理解，特殊值無窮使得計算中發生的上溢錯誤不必以終止運算為結果。

無窮和除 NaN 以外的其它浮點數一樣是有序的，從小到大依次為負無窮，負的有窮非零值，正負零（隨後介紹），正的有窮非零值以及正無窮。除 NaN 以外的任何非零值除以零，結果都將是無窮，而符號則由作為除數的零的符號決定。

回顧我們對 NaN 的介紹，當零除以零時得到的結果不是無窮而是 NaN 。原因不難理解，當除數和被除數都逼近於零時，其商可能為任何值，所以 IEEE 標準決定此時用 NaN 作為商比較合適。

4.3. 有符號的零

因為 IEEE 標準的浮點數格式中，小數點左側的 1 是隱藏的，而零顯然需要尾數必須是零。所以，零也就無法直接用這種格式表達而只能特殊處理。

實際上，零儲存為尾數域為全為 0，指數域為 emin - 1 = -127，也就是說指數域也全為 0。考慮到符號域的作用，所以存在著兩個零，即 +0 和 -0。不同於正負無窮之間是有序的，IEEE 標準規定正負零是相等的。

零有正負之分，的確非常容易讓人困惑。這一點是基於數值分析的多種考慮，經利弊權衡後形成的結果。有符號的零可以避免運算中，特別是涉及無窮的運算中，符號資訊的丟失。舉例而言，如果零無符號，則等式 1/(1/x) = x 當x = ±∞ 時不再成立。原因是如果零無符號，1 和正負無窮的比值為同一個零，然後 1 與 0 的比值為正無窮，符號沒有了。解決這個問題，除非無窮也沒有符號。但是無窮的符號表達了上溢發生在數軸的哪一側，這個資訊顯然是不能不要的。零有符號也造成了其它問題，比如當 x=y 時，等式1/x = 1/y 在 x 和 y 分別為 +0 和 -0 時，兩端分別為正無窮和負無窮而不再成立。當然，解決這個問題的另一個思路是和無窮一樣，規定零也是有序的。但是，如果零是有序的，則即使 if (x==0) 這樣簡單的判斷也由於 x 可能是 ±0 而變得不確定了。兩害取其輕者，零還是無序的好。

4.4. 非正常化數

我們來考察浮點數的一個特殊情況。選擇兩個絕對值極小的浮點數，以單精確度的二進位浮點數為例，比如 1.001 × 2-125 和 1.0001 × 2-125 這兩個數（分別對應於十進位的 2.6448623 × 10-38 和 2.4979255 × 10-38）。顯然，他們都是普通的浮點數（指數為 -125，大於允許的最小值 -126；尾數更沒問題），按照 IEEE 754 可以分別儲存為 00000001000100000000000000000000（0x1100000）和 00000001000010000000000000000000（0x1080000）。

現在我們看看這兩個浮點數的差值。不難得出，該差值為 0.0001 × 2-125，表達為規範浮點數則為 1.0 × 2-129。問題在於其指數大於允許的最小指數值，所以無法儲存為規範浮點數。最終，只能近似為零（Flush to Zero）。這中特殊情況意味著下面本來十分可靠的代碼也可能出現問題：

if (x != y) {
 z = 1 / (x -y);
}

正如我們精心選擇的兩個浮點數展現的問題一樣，即使 x 不等於 y，x 和 y 的差值仍然可能絕對值過小，而近似為零，導致除以 0 的情況發生。

為瞭解決此類問題，IEEE 標準中引入了非規範（Denormalized）浮點數。規定當浮點數的指數為允許的最小指數值，即 emin 時，尾數不必是正常化的。比如上面例子中的差值可以表達為非規範的浮點數 0.001 × 2-126，其中指數 -126 等於 emin。注意，這裡規定的是"不必"，這也就意味著"可以"。當浮點數實際的指數為 emin，且指數域也為 emin 時，該浮點數仍是規範的，也就是說，儲存時隱含著一個隱藏的尾數位。為了儲存非規範浮點數，IEEE 標準採用了類似處理特殊值零時所採用的辦法，即用特殊的指數域值 emin - 1 加以標記，當然，此時的尾數域不能為零。這樣，例子中的差值可以儲存為 00000000000100000000000000000000（0x100000），沒有隱含的尾數位。

有了非規範浮點數，去掉了隱含的尾數位的制約，可以儲存絕對值更小的浮點數。而且，也由於不再受到隱含尾數域的制約，上述關於極小差值的問題也不存在了，因為所有可以儲存的浮點數之間的差值同樣可以儲存。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

關於浮點數的原理詳解

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support