當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

浮点数表示及其实现

發布時間：2023/12/9 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了浮点数表示及其实现小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

From: http://blog.csdn.net/biblereader/article/details/819428

我兩年前就知道不應該用==號來判斷浮點數的相等了,因為存在一個精度的問題,但是一直以來,都沒怎么在乎這些東西,而實際上,我對于浮點數的結構,雖然了解,但并不清晰. 作為一個C++愛好者,應該盡量搞清楚每一個問題,所以我搞清楚了浮點數的內在表示及實現.在沒有大問題的情況下,一切以易于理解和記憶為標準.

首先說一下原,反,補,移碼. 移碼其實就等于補碼,只是符號相反. 對于正數而言,原,反,補碼都一樣, 對負數而言,反碼除符號位外,在原碼的基礎上按位取反,補碼則在反碼的基礎之上,在其最低位上加1,要求移碼時,仍然是先求補碼,再改符號.

浮點數分為float和double,分別占4,8個字節,即32,64位. 我僅以32位的float為例,并附帶說double.

在IEEE754標準中,規定,float的32位這樣分:

????符號位(S)

階碼(E)

尾數(M)

?這里應該注意三點:?? A,階碼是用移碼表示的,這里會有一個127的偏移量,它的127相當于0,小于127時為負,大于127時為正,比如:10000001表示指數為129-127=2,表示真值為2^2,而01111110則表示2^(-1).

???????????????????????????????????? B,?尾數全都是小數點后面的數,

???????????????????????????????????? C,?但尾數中省略了一個1,因此尾數全為0時,也是1.0...00;

接下來只要說明幾個問題就明白了,以123.456為例,表示為二進制就是:N (2) = 1111011. 01110100101111001?,這里,會右移6位,得到N (2) = 1.111011 01110100101111001*2^6; 這種形式就可以用于上圖中的表示格式了.??????????????

?符號位(S)?

????????? 0?

階碼(E)?00000110

尾數(M)11101101110100101111001

注意到,上面的階碼第一位為0表正,尾數比N(2)表示的第一位少了個1,這就是上面說的默認為第一位為1. 由于在將十進制轉為二進制的過程中,常常不能正好轉得相等, (當然,像4.0這樣的就不會有損失,而1.0/3.0這樣的必然損失),所以就產生了浮點數的精度問題, 實際上,小數點后的23位二進制數,能影響的十進制數的前8位,這是為什么呢?一般人在這時往往迷迷胡胡了,其實很簡單,在上面表示的尾數中,是二進制的,小數點后有23位,最后一位的值為1時,它就是1/2^22=0.000000238實際取的時候肯定是0.0000002,也就是說,對于一個float型的浮點數,其有效的位數是從左到右數7位(包括缺省的1才是7位),當到達上面這個第8位時,就不可靠了,但我們的VC6可以輸出最長的1.0/3.0為0.33333333333333331,這主要是編譯器的問題了, 而并不是說浮點數小數點后的16位都有效.?如果不信的話,可以去試一下double類型的1.0/3.0, 得到的也將是小數點后17位.??????????????????????????????????????????????????????????????? ????????????????????????????????? ..另外,編譯器或電路板一般都有"去噪聲"的"修正"能力,它能夠使得超過7位的十進制數即使無效了也不會變得離譜,這也是上面為什么一直都是輸出333而不是345之類的,. 可以這樣試一下:

float f=123456789;
?cout<<f<<endl;//這里肯定得到123456789.

這里有一個被人遺忘的問題,就是10進制小數怎么變為2進制小數,其實很簡單,就是將10進的小數部分不斷乘以2,進位時就將對應的2進制位寫入1. 因此將上面的N (2) = 1.111011 01110100101111001*2^6;再轉回十進制數時,很可能已經不再是123.456了. 好,精度問題應該說清楚了. 下面說示數范圍.

階碼的示數位數是8位移碼,最大為127最小為-127,這里的127用來作為2的指數,因此為2^127,約等于 1.7014*10^38, 而我們知道,float的示數范圍約為-3.4*10^38-------3.4*10^38, 這是因為尾數的24位(默認第一位為1)全為1是,非常接近2,? 1.11..11很明顯約為2,因此浮點數的范圍就出來了.

double的情況與float完全相似,只是它的內在形式是

????符號位(S)

????????? 1

階碼(E)

尾數(M)?

?? 52

主要的區別在于它的階碼有11位了, 這就有2^1023約等于 0.8572*10^308, 尾數53位約為2,故double的示數范圍約為 -1.7*10^308.------1.7*10^308.? 至于其精度,同樣,1.0/2^51=4.4*10^(-16).小數點后15位有效,加上缺省的那一位,因此對于double浮點數,從左到右的16位數都是可靠的.

有時,我們會聽到"定點小數"這個詞,單片機(如手機等)一般只使用定點數,迷糊的時候,我們會以為 float? a=23.4; 這種是定點小數, float a=2.34E1這種為浮點數,其實這是錯誤的, 上面只是同一個浮點數的不同表示,都是浮點數. 定點小數是有這種提法,認為整就是定點小數,小數點定在個位后面,小數部分為0.也可認為純小數是定點小數,但它只能表示小于1的純小數.

然后再說一下C/C++中的幾個函數, C++中默認輸出小數點后的5位小數,但可以設置,有兩種方法:調用setpression或者使用cout.pression,但效果是不同的:

?float?mm=123.456789f;
?cout<<mm<<endl;? //123.457???????????雖說默認為不數點后5位,但只是整數部分只有一位才這樣.
?setprecision(10);?????????????????????????????? //設置小數點后的位數,但當整數部分有兩位時,與默認情況沒什么兩樣,不起作用.
?cout<<mm<<endl;? //123.457
?cout.precision(4);????????????????????????????? //設置總的位數.
?cout<<mm<<endl;? //123.4?????總之效果是比較怪的,個人認為雖然這樣顯得不夠確定,但實為硬件系統所限.無可厚非.

對于0的實際表示,有人認為+0一般能絕對為0,而-0則可能表示一個極小的數.? 為此,本人想到了一種很好的驗證辦法,證明了不管+0還是-0,它都是2^(-127),代碼如下:

?float fDigital = 0.0f;????????
?unsigned long nMem;// 臨時變量，用于存儲浮點數的內存數據
?// 將內存按位復制到臨時變中，以便取用,此時的nMem并不等于fDigital了,它是按位復制的。
?nMem = *(unsigned long*)&fDigital;
?cout<<nMem<<endl;? //一般得到一個很大的整數.

?bitset<32>mybit(nMem);//妙在此處,這里的輸出就是32float的內存表示了.終于完全直觀地看到了.
?cout<<mybit<<endl;?? //00000000000000000000000000000000 用-0.0來試,也是如此.

如果你還認為上面那一長串的0表示的是絕對的0,那么請重新看本文. 事實上,本人的這種做法是比較巧妙的,將上面的fDigital用任何其它浮點數表示,這個bitset數都可以反映出它的內存表示.

有移碼表示階碼有是有原因的,主要是移碼便于對階操作,從而比較兩個浮點數的大小. 這里要注意的是,階碼不能達到11111111的形式,IEEE規定,當編譯器遇到階碼為0XFF時,即調用溢出指令.? 總之,階碼化為整數時,范圍是:-127~127.

最后,有一個往往高手也汗顏的地方,一定要記住,浮點數沒有無符號型的usinged float/double是錯誤的.

本人才疏學淺,歡迎批評指正.

總結

以上是生活随笔為你收集整理的浮点数表示及其实现的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

浮点数