1)漢字交換碼(國標碼) 漢字交換碼(國標碼)主要用於漢字資訊交換。國標碼:以國家標準局1980年頒布的《資訊交換用漢字編碼字元集"基本集》(代號為GB2312 80)規定的漢字交換碼作為國家標準漢字編碼。 GB2312 80中共有7445個字元符號:
漢字元號6763個 一級漢字3755個(按漢語拼音字母順序排列)二級漢字3008個(按部首筆劃順序排列) 非漢字元號682個 GB2312 80規定,所有的國標碼漢字及符號組成一個94 x 94的方陣。在此方陣中,每一行稱為一個"區",每一列稱為一個"位"。這個方陣實際上組成一個有94個區(編號由01到94),每個區有94個位(編號由01到94)的漢字字元集。
一個漢字所在的區號和位號的組合就構成了該漢字的"區位碼"。其中,高兩位為區號,低兩位為位號。這樣區位碼可以唯一地確定某一漢字或字元;反之,任何一個漢字或符號都對應一個唯一的區位碼,沒有重碼。
區位碼分布情況如下:
區 號 內 容
1區 鍵盤上沒有的各種符號
2區 各種序號
3區 鍵盤上的各種符號(按中文方式給出)
4-5區 日文字母
6區 希臘字母
7區 俄文字母
8區 標識拼音聲調的母音及拼音字母名稱
9區 定位字元號
10- 15區 未用
16-55區 一級漢字(按拼音字母順序排列)
56-87區 二級漢字(按部首筆劃順序排列)
88-94區 自訂漢字
由上可以看出,所有漢字與符號的94個區,可以分為四個組:
① 1-15區:為圖形符號區。其中1-9區為標準符號區;10-15區為自訂符號區。
②16-55區:為一級漢字區,包含3755個漢字。這些區中的漢字按漢語拼音順序排序,同音字按筆畫順序列出。
③56-87區:為二級漢字區,包含3008個漢字。這些區中的漢字是按部首筆劃順序排序的。
④88-94區:為自訂漢字區。
國標碼規定,每個漢字(包括非漢字的一些符號)由2位元組代碼錶示。每個位元組的最高位為0,只使用低7位,而低7位的編碼中又有34個適用於控制用的,這樣每個位元組只有2^7-34 = 94個編碼用於漢字。2個位元組就有94X94=8836個漢字編碼。在表示一個漢字的2個位元組中,高位元組對應編碼錶中的行號,稱為區號;低位元組對應編碼錶中的列號,稱為位號。
漢字國標碼的範圍用二進位表示是: 00100001 00100001 01111110 01111110
(1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII碼是128個字元組成的字元集。其中編碼值0 31(00000000 00011111)不對應任何印刷字元,通常稱為控制符,用於電腦通訊中的通訊控制或對電腦裝置的功能控制。編碼值32(00100000)是空白字元SP。編碼值127(1111111)是刪除字元DEL。
漢字國標碼的起始二進位位置選擇00100001即(33)10是為了跳過ASCII碼的32個控制字元和空白字元。所以,漢字國標碼的高位和低位分別比對應的區位碼大(32)10或(00100000)2或(20)H,即:國標碼高位 = 區碼 + 20H (H表示十六進位) 國標碼低位 = 位碼 + 20H
2) 漢字機內碼(內碼)(漢字儲存碼)
GB2312(1980年)一共收錄了7445個字元,包括6763個漢字和682個其它符號。漢字區的內碼範圍高位元組從B0-F7,低位元組從A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
漢字機內碼(內碼)(漢字儲存碼)的作用是統一了各種不同的漢字輸入碼在電腦內部的表示。
為了將漢字的各種輸入碼在電腦內部統一起來,就有了專用於電腦內部儲存漢字使用的漢字機內碼,用以將輸入時使用的多種漢字輸入碼統一轉換成漢字機內碼進行儲存,以方便機內的漢文書處理
漢字機內碼是在電腦內部儲存、處理的代碼。電腦既要處理漢字,又要處理英文。因此電腦必須能區別漢字字元和英文字元。英文字元的的機內碼是最高為為0的8位ASCII碼。為了不與7位ASCII碼發生衝突,把國標碼每個位元組的最高位由0改為1,其餘位不變的編碼作為漢字字元的機內碼。
漢字機內碼的範圍用二進位表示是: 10100001 10100001 11111110 11111110
機內碼的高位和低位比對應的國標碼的高位和低位大(128)10或(10000000)2或(80)H
即: 機內碼高位 = 國標碼高位 + 80H 機內碼低位 = 國標碼低位 + 80H
又因為: 國標碼高位 = 區碼 + 20H 國標碼低位 = 位碼 + 20H
所以: 機內碼高位 = 區碼 + A0H 機內碼低位 = 位碼 + A0H
也就是說,機內碼高位和機內碼低位分別比對應的區碼和位碼大(160)10或(10100000)2或(A0)H
例如:漢字"啊"的區位碼為"1601",其中區碼為(16)10或(10)H,位碼為(01)10或(01)H。
則: 機內碼高位 = 10H + A0H = B0H 機內碼低位 = 01H + A0H = A1H 所以:
機內碼= B0A1H
private void btnBrowser_Click(object sender, EventArgs e)
{
string s = tbCharOrString.Text;
string st = string.Empty;
byte[] array = System.Text.Encoding.Default.GetBytes(s);
for (int i = 0; i < array.Length; i++)
{
if (array[i] >= 161 && array[i] <= 247)
{
st =st+System.Text.Encoding.Default.GetString(array,
i, 2);
st = st + string.Format(" 高位元組:{0},低位元組:{1}"+Environment.NewLine , array[i], array[i + 1]);
i++;
}
else
{
st =st+ System.Text.Encoding.Default.GetString(array,
i,1);
st = st + string.Format(" ASCII:{0}" +
Environment.NewLine, array[i]);
}
}
tbResult.Text = st;
}
示範介面如: