C語言中魔性的float浮點數精度問題

從一個問題引入

如果你以前接觸過C語言,那麼對下面的這段代碼一定很熟悉:

#include <stdio.h>

int main(void)
{
    float f_num1 = 21.75;
    float f_num2 = 13.45;
    printf("f_num1 = %f\n", f_num1);
    printf("f_num2 = %f\n", f_num2);
    printf("f_num1 + f_num2 = %f\n", f_num1 + f_num2);

    return 0;
}

相信很多人不用運行,能夠直接報出答案, f_num1 = 21.75 , f_num2 = 13.45 , f_num1 + f_num2 = 35.2 ,無論是從常識還是理論角度都不難理解。

下面我們運行一下程序,驗證我們的猜測正不正確:

f_num1 = 21.750000
f_num2 = 13.450000
f_num1 + f_num2 = 35.200001

f_num1 和 f_num2 的結果和我們預想的一樣,之所以後面多瞭四個0,是因為 %f 默認保留6位有效數字。但是 f_num1 + f_num2 的結果是什麼鬼,這個 35.200001 是從哪裡來的?

是不是一下子顛覆瞭我們的認知?

驚不驚喜,意不意外,刺不刺激?是不是發現自從學瞭C語言,連簡單的算術都不會算瞭?

別急,還有更令你崩潰的。

如果是C++呢

下面我們看看以上程序的C++版本:

#include<iostream>
using namespace std;

int main(void)
{
    float f_num1 = 21.75;
    float f_num2 = 13.45;
    cout << "f_num1 = " << f_num1 << endl;
    cout << "f_num2 = " << f_num2 << endl;
    cout << "f_num1 + f_num2 = " << f_num1 + f_num2 << endl;
    return 0;
}

直接來看輸出結果吧:

f_num1 = 21.75
f_num2 = 13.45
f_num1 + f_num2 = 35.2

很神奇是不是?因為這個結果看起來正常多瞭。

看到這裡,相信我們的心裡都有老大一個疑問:為什麼C程序和C++程序對同樣的數字處理,輸出的結果卻不一樣的? cout 到底做瞭些什麼?

cout的神奇之處

為瞭驗證cout對浮點數的處理,我們不妨看一下下面的程序:

#include <iostream>
using namespace std;

int main(void)
{
    float num1 = 5;
    float num2 = 5.00;
    float num3 = 5.14;
    float num4 = 5.140000;
    float num5 = 5.123456;
    float num6 = 5.987654321;
    cout << "num1 = " << num1 << endl;
    cout << "num2 = " << num2 << endl;
    cout << "num3 = " << num3 << endl;
    cout << "num4 = " << num4 << endl;
    cout << "num5 = " << num5 << endl;
    cout << "num6 = " << num6 << endl;

    return 0;
}

看結果來分析比較直觀,運行以上程序,結果如下:

num1 = 5
num2 = 5
num3 = 5.14
num4 = 5.14
num5 = 5.12346
num6 = 5.98765

從 num1 和 num2 , num3 和 num4 這兩組結果可以知道, cout 對於 float 類型數值小數點後面的0是直接省去瞭的(這點和C語言格式化輸出的%g有點像)。

從 num5 和 num6 兩組結果不難分析出, cout 對於浮點型數值,最多保留6位有效數字。

以上是cout處理浮點數時的特點,應該記住。

事實上,我們使用 iostream 庫裡的 cout.setf 不難使 cout 恢復精度。我們對上面的代碼修改如下:

#include<iostream>
using namespace std;

int main(void)
{
    float f_num1 = 21.75;
    float f_num2 = 13.45;
    cout.setf(ios_base::fixed, ios_base::floatfield);    
    cout << "f_num1 = " << f_num1 << endl;
    cout << "f_num2 = " << f_num2 << endl;
    cout << "f_num1 + f_num2 = " << f_num1 + f_num2 << endl;
    return 0;
}

輸出的結果就與C語言版本一模一樣瞭:

f_num1 = 21.750000
f_num2 = 13.450000
f_num1 + f_num2 = 35.200001

答案呼之欲出

文章寫到這裡,相信你已經看出來問題的所在瞭。

不錯,之所以結果不一樣,正是由於精度引起的!

讓我們回顧一下官方教材裡關於 float 精度的描述:

浮點型和表示單精度、雙精度和擴展精度值。 C++ 標準指定瞭一個浮點數有效位數的最小值,然而大多數編譯器都實現瞭更高的精度。 通常, float 以一個字(32比特)來表示, double 以2個字(64比特)來表示, long double 以3或4個字(96或128比特)來表示。一般來說,類型 float 和 double 分別有7和16個有效位;類型 long double 則常常被用於有特殊浮點需求的硬件,它的具體實現不同,精度也各不相同。( 《C++ Primer第五版》 )

由以上描述,我們不難知道,對於 float 來說,最多隻有7個有效位,這也就意味著,當實際存儲的精度大於 float 的精度范圍時,就會出現精度丟失現象。

為瞭進一步佐證上述問題,我們不妨將 float 的數值放大10億倍,看看裡面存儲的值到底是多少:

#include<iostream>
using namespace std;

int main(void)
{
    float f_num1 = 21.75;
    float f_num2 = 13.45;
    cout.setf(ios_base::fixed, ios_base::floatfield);
    int billion = 1E9;
    float f_num10 = f_num1 * billion;
    float f_num20 = f_num2 * billion;
    cout << "f_num1 = " << f_num1 << endl;
    cout << "f_num2 = " << f_num2 << endl;

    cout << "f_num10 = " << f_num10 << endl;
    cout << "f_num20 = " << f_num20 << endl;
    return 0;
}

以上程序運行結果如下:

f_num1 = 21.750000
f_num2 = 13.450000
f_num10 = 21749999616.000000
f_num20 = 13449999360.000000

由此我們不難推斷,21.75在實際存儲時,並不是存儲的21.75,而是21.749999616,同樣的,12.45存儲的是12.449999360,這樣計算出來之後自然就會造成結果的不正確。

再看一個例子

我們再來看一個精度丟失造成運算結果不正確的例子。

#include<iostream>
using namespace std;

int main(void)
{
    float num1 = 2.3410E23;
    float num2 = num1 + 1.0f;
    cout << "num2 - num1 = " << num2 - num1 << endl;
    return 0;
}

如果精度不丟失,運算結果應該為1才對,可是因為精度丟失,導致最後的加1實際和沒加效果一樣,計算出來的結果是0。

num2 – num1 = 0

怎麼解決

那麼,既然float有這麼多稀奇古怪的問題,應該怎麼去解決和避免呢?

首先,當然推薦大傢在編程時盡量使用高精度的浮點類型

比如double就比float精度要高,很多時候,使用double能夠避免很多問題,比如本文一開始提到的問題,如果使用double就能完美解決:

#include <stdio.h>

int main(void)
{
    double f_num1 = 21.75;
    double f_num2 = 13.45;
    printf("f_num1 = %lf\n", f_num1);
    printf("f_num2 = %lf\n", f_num2);
    printf("f_num1 + f_num2 = %lf\n", f_num1 + f_num2);

    return 0;
}

大傢可以自己運行一下看看結果。

double 類型可以解決大部分精度丟失問題,基本上滿足日常使用瞭,但是仍然不能避免精度丟失( double 也有精度限制),這時候就需要想另外的方法來解決瞭。

萬能的cout

前面提到過, cout 其實是可以解決這種精度丟失問題的,所以如果不是對效率要求過高或者要求格式化輸出(其實 cout 也可以實現格式化輸出,此處不詳細展開)必須使用 printf ,在編寫C++程序時,建議使用 cout 代替 printf 。

寫在最後

本文隻是簡單的介紹瞭一下浮點型數值的精度問題,如果要深入細究,肯定不止這麼多內容,比如浮點型數值在內存中是如何存儲的?在字節裡是如何分佈 的?這才是真正核心的原理部分。在這裡隻淺嘗輒止地講述瞭一下,但相信閱讀者已經對精度問題有瞭一個初步的認識。

到此這篇關於C語言中魔性的float浮點數精度問題的文章就介紹到這瞭,更多相關C語言float浮點數精度 內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: