Ubuntu漢字編碼概述

來源:互聯網
上載者:User
關鍵字 編碼 位元組 概述 表示

中 文文本的基本組成單位是漢字。 目前我國漢字總數已超過6萬字。 漢字的數量大、字形複雜、同音字多、異體字多等特點給漢字在電腦內部的表示、處理、傳輸、 交換、輸入、輸出帶來了一系列的問題,同時也給漢字編碼工作帶來了相當大的難度。 我國漢字編碼方案有多種,主要有以下幾種編碼方案:

1. GB2312-80 編碼&HTTP://www.aliyun.com/zixun/aggregation/37954.html">nbsp;

GB2312碼是中華人民共和國國家漢字資訊交換用編碼,全稱《資訊交換用漢字編碼字元集--基本集》,由國家標準總局發佈,1981年5月1日實施,通行于大陸。 新加坡等地也使用此編碼。

GB2312 收錄簡化漢字及符號、字母、日文假名等共7445個圖形字元,其中漢字占6763個。 GB2312規定「對任意一個圖形字元都採用兩個位元組表示,每個位元組均採用七位編碼表示」,習慣上稱第一個位元組為「高位元組」,第二個位元組為「低位元組」。 GB2312-80包含了大部分常用的一、二級漢字,和9區的符號。 該字元集是幾乎所有的中文系統和國際化的軟體都支援的中文字元集,這也是最基本的中文字元集。 其編碼範圍是高位0xa1-0xfe,低位也是0xa1- 0xfe;漢字從0xb0a1開始,結束于0xf7fe。 GB2312 將代碼表分為94個區,對應第一位元組(0xa1-0xfe);每個區94個位(0xa1-0xfe),對應第二位元組,兩個位元組的值分別為區號值和位號值加 32(20H),因此也稱為區位碼。 01-09區為符號、數位區,16-87區為漢字區(0xb0-0xf7),10-15區、88-94區是有待進一步 標準化的空白區。 GB2312將收錄的漢字分成兩級:第一級是常用漢字計3755個,置於16-55區,按中文拼音字母/筆形順序排列;第二級漢字是次常 用漢字計3008個,置於56-87區,按部首/筆劃順序排列。 故而GB2312最多能表示6763個漢字。

GB2312的編碼範圍為2121H-777EH,與ASCII有重疊,通行方法是將GB碼兩個位元組的最高位置1以示區別。

圖1:GB2312編碼圖

圖中位於ASCII區中的虛線區域即為原GB2312編碼區域,右下角實線區域為平移後的GB2312編碼區域。 其中詳細區位分佈如下所示:

區號 字數 字元類別

01 94 一般符號
02 72 順序號碼
03 94 拉丁字母
04 83 日文平假名
05 86 日文片假名
06 48 希臘字母
07 66 俄文字母
08 63 中文拼音符號
09 76 圖形符號
10-15 備用區
16-55 3755 一級漢字,以拼音為序
56-87 3008 二級漢字,以筆劃為序
88-94 備用區

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.