標籤:
1. 字元
2. 整型數字
3. 浮點型數字
4. 圖片,聲音,視頻
1. 字元
編碼主要有輸入碼、機內碼、字形碼三種.輸入碼指的是鍵盤等外部裝置輸入記憶體時的編碼,機內碼指的是在記憶體/硬碟中的編碼.字形碼則是對應到顯示器顯示的字元點陣.
我們主要討論機內碼.
主要是四種 ascii gbk unicode utf-8
ascii 則是最早的編碼,只針對西文和控制符.7Bit 後來擴充到了8位.
gbk 由於ascii不能儲存中文,因此我國制定了中文標準,兩個位元組表示,之前的ascii則低位元組最高位為0(Windows上就是預設gbk編碼)
unicode 由於全世界人民都用電腦,都要添加字元,不夠用.所以用unicode(2B)來同一規範.Unicode只是一個符號集,它只規定了符號的二進位代碼,卻沒有規定這個二進位代碼應該如何存儲
UTF-8 如果全是英文則太浪費空間,於是又有了UTF-8的編碼方式(注意,這個只是unicode的一種實現方式本質) 漢字一般3位元組,用了最小首碼編碼方式
ASCII編碼實際上可以被看成是UTF-8編碼的一部分,所以,大量只支援ASCII編碼的曆史遺留軟體可以在UTF-8編碼下繼續工作。
在電腦記憶體中,統一使用Unicode編碼,當需要儲存到硬碟或者需要傳輸的時候,就轉換為UTF-8編碼。
用記事本編輯的時候,從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡,編輯完成後,儲存的時候再把Unicode轉換為UTF-8儲存到檔案
程式中的問題:
1. char 單位元組儲存ascii wchar_t 兩個位元組
#define LPSTR char*#define LPCSTR const char*#define LPTSTR TCHAR*#define LPCTSTR const TCHAR*#define LPWSTR wchar_t*#define LPCWSTR const wchar_t*
st,T表示TCHAR,W表示wchar_t。最後說一下TCHAR
#ifdef _UNICODE#define TCHAR wchar_t#else#define TCHAR char#endif
2. 若以文本形式開啟檔案,則讀出的\n字元因作業系統不同而不同.Windows中為13 10 Linux為10.還有就是SUB這個檔案終結符
2.整型數字
分為有符號,無符號兩種. 考慮到運算與邏輯電路的設計,有符號數用補碼存放,因為資料存放是定長的所以運算都是(a calc b)%2^n ,那麼我們發現若將一個數減小 eg:a->b(b<a)
可以考慮變成 b+2^n 則c=b+2^n-a
浮點數
IEEE754 標準. 數字分為符號位,尾數位(符號位單獨列出,因此用原碼錶示很方便),階碼位.(移碼錶示)
eg:float 32位, 1位符號位,23位 尾數,8位階碼.
對於浮點數,階碼的作用是比較大小,對碼,因此不涉及運算反而要求
1、比較大小方便,2、特殊值(0和max)被檢驗比較容易
定義中階碼的範圍為-127~128.此時移碼定義為127.則橫跨了0~255的數域.
如果指數是0並且尾數的小數部分是0,這個數±0(和符號位相關)
如果指數 = 2^{e} - 1並且尾數的小數部分是0,這個數是±∞(同樣和符號位相關)
如果指數 = 2^{e} - 1並且尾數的小數部分非0,這個數表示為不是一個數(NaN)。
待續.................
電腦中資料表示