1.1.1. 資訊儲存
電腦處理、儲存的資訊都是以二值符號表示的。這些二值數字,也就是位(bit),當獨取一個出來,可能就沒有什麼意義,但是把位組合到一起,加上某種解釋,就能夠表示我們想要表示的資訊了。這裡的按位組合,某種解釋,其實就是編碼方式。我們先來看三種最重要的數字編碼:
無符號(unsigned)編碼,傳統二進位標記法,表示大於或等於零的數字
二進位補碼(two’s-complement)編碼,表示有符號整數最常見的方式。
浮點數(floating-point)編碼,表示實數的科學計數法以2為基數的版本。
電腦用有限的位來對一個數字編碼,當運算的結果超出表示的範圍時,運算就會導致溢出。
1.1.1.1. 基本概念:
位元組:電腦中8位的塊,最小的可定址的儲存空間單位。
虛擬儲存空間:機器級程式把儲存空間視為一個非常大的位元組數組。
地址:儲存空間的每個位元組都有一個唯一的數字來標識。
虛擬位址空間:所有可能地址的集合。
字:每台電腦都有一個字長(word size),指明整數和指標資料的標稱大小(norminal size)。一個字長為n位的機器,虛擬位址的範圍為0~2n-1,程式最多能訪問2n位元組。
C中的指標,不論其指向什麼,都是某個儲存塊的第一個位元組的虛擬位址。C編譯器把每個指標和類型資訊聯絡起來,以根據指標類型,產生不同的機器級代碼來訪問儲存在指標所指向位置的值。C編譯器維護著這個類型資訊,但它產生的機器級程式並沒有關於資料類型的資訊,它簡單地把每個程式對象視為一個位元組塊,而將程式本身看做一個位元組序列。
C語言中數字資料類型的大小(單位:位元組)
C聲明 |
典型32位機器 |
Compad Alpha機器 |
Char Short int Int Long int |
1 2 4 4 |
1 2 4 8 |
Char * |
4 |
8 |
Float Double |
4 8 |
4 8 |
1.1.1.2. 十六進位
一個位元組的範圍,用二進位表示為000000002~111111112。十六進位表示為0016~FF16。在C中,以0x或0X開頭的數字被認為是16進位的值。
十進位數字x轉十六進位:【x=q0*16 + r0】->【q0=q1*16 + r1】->……->【rn = 0*16 + r n】,則結果為【rn rn-1… r2 r1】,當然ri要寫成相應的十六進位數字。
1.1.1.3. 定址和位元組順序
對跨越多位元組的程式對象,我們必須建立兩個規則:這個對象的地址是什嗎?我們在儲存空間中如何對這些位元組排序?
答:1.多位元組對象被儲存為連續的位元組序列,對象的地址為所使用位元組序列中最小的地址。
2.對錶示一個對象的位元組序列排序有兩種規則,大端法和小端法。大端法:最高有效位元組在最前面;小端法:最低有效字在最前面。如有一個十六進位數字0x01234567,其表示如下表所示:
大端法 |
|
0x100 |
0x101 |
0x102 |
0x103 |
|
… |
01 |
23 |
45 |
67 |
… |
小端法 |
… |
0x100 |
0x101 |
0x102 |
0x103 |
|
… |
67 |
45 |
23 |
01 |
… |
關於位元組序在網路通訊時就變得很重要。由於不同的電腦可能出現大端法和小端法的區別,所以在發送某些資料之前需要將資料從主機位元組序轉換為網路位元組序,而在收到資料後,又需要將資料從網路位元組序轉換為主機位元組序進行處理。
列印程式對象的位元組表示:
#ifndef SHOW_BYTE_H
#define SHOW_BYTE_H
#include <stdio.h>
typedef unsigned char *byte_pointer;
class CShowBytes
{
public:
void show_bytes(byte_pointer start, int len)
{
int i;
for(i=0; i<len; i++)
{
printf(" %.2x", start[i]);
}
printf("\n");
}
void show_int(int x)
{
show_bytes((byte_pointer)&x, sizeof(int));
}
void show_float(float x)
{
show_bytes((byte_pointer)&x, sizeof(float));
}
void show_pointer(void *x)
{
show_bytes((byte_pointer)&x, sizeof(void *));
}
void show_string(char start[], int len)
{
int i;
for(i=0; i<len; i++)
{
printf(" %.2x", start[i]);
}
printf("\n");
}
};
#endif
1.1.1.4. 字串
C字串為以NULL字元結尾的字元數組。為什麼前面我提到在網路通訊時,是需要對“某些”資料進行主機位元組序和網路位元組序之間的轉換,而不是所有?是因為字串具有平台獨立性。為什麼呢?
因為每個字元都由標準編碼來表示,常用ASCII編碼,如使用ASCII碼的字元碼在任何系統傷將得到同樣的結果,與位元組順序和字大小無關。對比了數字和字串在記憶體中的儲存形式,由於一個字元恰好對應一個位元組,所以與位元組順序沒有關係,而數位話涉及到位元先後順序的問題就不同了。
1.1.1.5. 布爾代數和環,C的位、邏輯運算
二進位是電腦編碼、儲存和操作資訊的核心。而圍繞0和1的布爾運算和環結構就變得異常重要。布爾代數<{0, 1}, |, &, ~, 0, 1>和基本的算術運算有很多相似的特性,如交換性、結合性、同一性等等。紅綠藍三種基本色在{0,1}中取值,並進行不同的布爾運算,就產生出了豐富多彩的顏色。
C的位元運算和邏輯運算就充分運用到了布爾代數的知識。記得在網上曾看到一道筆試題,就是交換兩個變數x和y的值,但不要引入第三方的變數,如果布爾代數運用得好的話,可以很容易給出下面的解決方案。
void inplace_swap(int *x, int *y)
{
*x = *x ^ *y;
*y = *x ^ *y;
*x = *x ^ *y;
}
其實這兒就運用到了 a ^ a = 0 和 a ^ 0 = a 的性質。
邏輯運算與位元運算不同的是,如果第一個參數能確定運算式的結果,就不會對後續參數求值進行運算。如p&&*p++就不會間接引用null 指標。具體原因請參看後面C的彙編表示中關於邏輯運算的彙編表示部分。
C的移位元運算,左移比較簡單,直接在右邊的空位補0。而右移就不同了,分為邏輯右移和算術右移兩種,邏輯右移也是直接在左邊的空位補0,而算術右移則在左邊的空位補上最高有效位的拷貝。幾乎所有的編譯器/機器組合都對有符號數使用算術右移。移位元運算同樣很重要,乘法在Cpu上的執行要比加減法多很多指令,為了提高效率,通常就可以用移位元運算對乘法運算進行最佳化。