C語言深入探究sizeof與整型數據存儲及數據類型取值范圍
1.關鍵字sizeof
sizeof 與 strlen 是我們日常打代碼時經常使用到的兩個“工具”。前者是求變量或者類型的大小(單位為字節),後者是求某一字符串的長度。我們很容易產生這樣一個誤解,即把 sizeof 和 strlen 歸為函數一類。事實上 sizeof 並不是一個函數,它是一個操作符、關鍵字。我們通過一段代碼證明它不是函數:
#include <stdio.h> int main() { int n = 20; printf("%d\n", sizeof(n)); printf("%d\n", sizeof(int)); printf("%d\n", sizeof n); return 0; }
我們註意到紅線部分的 sizeof 後面的變量名沒有加括號也能正常運行:
這就證明瞭 sizeof 它不是一個函數,而是一個操作符、關鍵字。
在這裡順便復習一下關於數組的知識,即數組名的兩個特例(除瞭這兩種情況其他任何時候數組名都表示數組首元素地址):
- sizeof 內單獨放數組名,其數組名表整個數組。
- & 數組名,表取整個數組的地址。
由此也可以看出 sizeof 與函數的區別。
2.整型數據存儲深入
變量的作用是在內存中開辟一塊空間,而類型則決定瞭這塊空間有多大。
我們可以與 sizeof 結合起來驗證這個問題:
#include <stdio.h> int main() { printf("%d\n", sizeof(char)); printf("%d\n", sizeof(short)); printf("%d\n", sizeof(int)); printf("%d\n", sizeof(long)); printf("%d\n", sizeof(long long)); return 0; }
我們知道,計算機隻能識別二進制,恰恰計算機系統又能把我們人類熟練使用的十進制轉換成二進制,並且產生相應的原碼、反碼、補碼。設計計算機的人設計出這樣一套規則是非常巧妙的。
我們引出原碼、反碼、補碼如何計算以及他們之間如何轉換:
- 原碼:將數字直接翻譯成二進制得到的序列。
- 反碼:在原碼的基礎上符號位(二進制序列的最高位,1表負數,0表負數)不變,替他位按位取反得到的序列。
- 補碼:在反碼的基礎上加1。
- 補碼計算回原碼方法一:補碼減1,然後符號位不變,其他位按位取反得到原碼。
- 補碼計算回原碼方法二:補碼符號位不變,其他位按位取反,然後加1。此方法與原碼計算補碼的方式是一樣的,這樣做的意義在於 CPU 進行數據處理時,隻要設計一套計算方法就可以完成原碼、反碼、補碼之間的相互轉換。
那麼具體的例子,在數據的存儲——整形篇有講到,這裡就不贅述。
我們需要明白的是:數據存儲到變量當中,不會受到類型的影響。什麼意思呢?我們舉個例子:
#include <stdio.h> int main() { unsigned int p = -10; return 0; }
大傢可以看到,我把一個負數存入到無符號的整型變量 p 中,這有些違反我們的直覺,無符號類型不是不存在負數的概念嗎?事實上,不是程序出錯,而是我們的直覺有問題。
我們在一開頭便闡述瞭變量的作用在內存中開辟一塊空間,而類型便是決定開辟多大的空間。就好比說,我們有 100 ,放在瞭我的荷包裡,那我們能說我有 100 塊嗎?就算是錢,我們定義它是美元、港幣、日元瞭嗎?所以,我們可以把變量看成 100 ,類型看成是美元、港幣、日元等等。
到這裡,我們就可以清楚,數據的存儲與變量的類型是沒有關系的,變量的作用僅僅是開辟一塊空間讓我們的數據存儲進去。聊到這裡,不妨讓我們再回顧一下,整型數據是如何存放在變量(內存)裡面的。我們就以上面那段代碼為例:
這裡再提一嘴:雖然內存中存放的是二進制序列,但為瞭我們方便,內存還是會以十六進制的表現形式表現出來。
我們試探性往內存裡面看 p 變量裡面存的是什麼東西:
可以發現,內存裡面的各種數據都對上瞭我們分析的結果,但是看起來有點“怪”。我們就來分析“怪”在哪裡:
我們知道 int 類型是有 4 個字節的,那麼數據占瞭 4 個字節沒有問題。那麼如果是以 1 列的形式查看地址,可以看到從上到下的地址是遞增的。
現在我們以 4 列的形式查看地址,可以看到從左往右地址遞增,從上往下地址遞增。
得出一個現象:f6 存在瞭我們的低地址處。
我們似乎可以這樣做推導:
這樣的存儲模式我們叫做小端存儲。為什麼這樣的模式叫做小端存儲?我們使用這個案例來類比:
所以我們得出結論,小端與大端的存儲模式可以定義為:
- 權重小的數位放入內存中的低地址處,權重大的放入內存中的高地址處,這樣的存儲模式叫小端存儲。
- 權重小的數位放入內存中的高地址處,權重小的放入內存中的低地址處,這樣的存儲模式叫大端存儲。
為什麼會有這種看似復雜的存儲模式?我們可以舉一個例子:我們大傢都吃過雞蛋,有些人剝殼喜歡往小的那一頭剝,有的人喜歡往大的那一頭剝,也就是“剝雞蛋”這個動作,沒有統一的行為概念。硬件制作廠商也不例外,有的廠商想讓數據的存儲行為是小端,也有的廠商想讓數據以大端的模式進行存儲,隻不過我們平時所接觸的硬件,都是以小端模式存儲字節序的。
我們討論瞭數據的存儲,現在我們來討論一下數據的“取出”規則。
好比說我們舉這個例子:
#include <stdio.h> int main() { unsigned int p = -10; printf("%u\n", p); printf("%d\n", p); return 0; }
我們可以看到,對於 -10 存儲在內存當中,我們第一次使用 %u 的形式將它從內存裡拿出來,第二次使用 %d 的形式將它從內存中拿出來。
我們可以看到,對於不同類型的使用方式就會造成不同的結果。我們似乎可以這樣斷定:數據類型不會影響數據的存儲,但一定會影響數據的取出(使用)。我們來分析一下為什麼使用不同的類型打印能造成不同的結果:
所以我們再總結一次:變量的數據類型不會對數據的存儲產生影響(截斷也不能算成是一種影響),但數據類型一定會影響數據的取出、使用。
3.數據類型取值范圍深入
什麼叫數據類型的取值范圍?好比說我們有這樣一個例子:
那麼我們取 C 語言中大小最小的數據類型 char 來討論數據類型的取值范圍。
我們知道,char 類型隻有 1 個字節,它有 8 個比特位。無符號類型的 char 我們就不做討論,我們重點討論無符號類型的 char 。那麼 8 個比特位,能有多少種排列組合?能從什麼值取到什麼值?
那麼通過演繹推理,得出來排列組合得個數,有什麼意義呢?可以確定八個比特位能存放多少個數字。例如兩個比特位能存放 4 個數字,三個比特位能存放 8 個數字,八個比特位能存放 256 個數字。
現在我們的重點在於:char 類型的八個比特位,能存哪 256 個數字?
可以看到這個結果,取值范圍似乎是 [-127,127] ,但是這個區間裡面隻有 255 個數,那我們理論推導出來的結果是 256 個數,是我們推導錯瞭嗎?其實不然,我們應該註意 1000 0000 後面的那個問號:如果這串二進制序列真表示 0 瞭,那麼就有兩個 0 瞭,但是在計算機在考慮取值范圍的時候,是不會浪費任何一個比特位來存放相同的數字的。
那麼既然沖突瞭,就要在兩個邊界任意一端擴充。那麼是 128 還是 -128 呢?隻能是 -128 。在這裡,我們就已經踏入計算機的知識邊界瞭,為什麼隻能是 -128 它是個數學問題,就好比為什麼會設計出原碼、反碼、補碼一樣,我們是無法理解設計計算機的人為什麼會這樣設計的。所以在這裡隻需記住,char 類型的取值范圍是 [-2^7,2^7-1] 。那麼我們類比出來 short 類型的取值范圍是 [-2^15,2^15-1] , int 類型的取值范圍是 [-2^31,2^31-1] ……
我們來看一個非常經典的例題:
#include <stdio.h> #include <string.h> int main() { char arr[1000]; for (int i = 0; i < 1000; i++) { arr[i] = -1 - i; } printf("%d\n", strlen(arr)); return 0; }
那麼這道題要我們輸出 arr 數組的長度是什麼意思呢?我們再好好想想 strlen 。strlen 是求字符串長度,我們模擬實現過 strlen 的工作機制,知道遇到 '\0' 時就停止,返回 '\0' 之前的字符長度。那麼 '\0' 就是數學意義上的 0 。其 '\' 是轉義字符,如果僅僅寫 '0' 的話,那麼這個 '0' 並非數學意義上的 0 ,而是一個字符 0 。
好的,那我們知道這段代碼會循環 1000 次對數組賦值。實際上我們的輸出的要求是:輸出 '\0' 出現之前的字符長度。我們可以這麼運算:
我們通過計算,可以計算出當數組下標為 255 時,元素存儲的是 0 ,即代表存儲的是 '\0' ,那麼 strlen 碰到 '\0' 時就會停止。那麼數組下標為 255 ,那數組下標 0~255 有 256 個元素,舍棄一個 '\0' ,即剩下 255 個有效字符。所以最後輸出 255 。
到此這篇關於C語言深入探究sizeof與整型數據存儲及數據類型取值范圍的文章就介紹到這瞭,更多相關C語言sizeof內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!