關於中文的幾個編碼GB2312、GBK、GB18030、GB13000

來源:互聯網
上載者:User
1、 GB2312

GB2312(1980年)一共收錄了7445個字元,包括6763個漢字和682個其它符號。漢字區的內碼範圍高位元組從B0-F7,低位元組從A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。

在windows中的字碼頁是CP936

2、 GBK

GBK最初是由微軟對GB2312的擴充,也就是CP936字碼錶 (Code Page 936)的擴充(原來的CP936和GB 2312-80一模一樣),最初出現於Windows 95簡體中文版中,由於Windows產品的流行和在大陸廣泛被使用,中華人民共和國國家有關部門將其作為技術規範。注意GBK並非國家正式標準,只是國家技術監督局標準化司、電子工業部科技與品質監督司發布的“技術規範指導性檔案”。雖然 GBK收錄了所有Unicode 1.1及GB 13000.1-93之中的漢字,但是編碼方式與Unicode 1.1及GB 13000.1-93不同。僅僅是GB 2312到GB 13000.1-93之間的過渡方案。GBK收錄了21886個符號,它分為漢字區和圖形符號區。漢字區包括21003個字元。

GBK作為對GB2312的擴充,在現在的windows系統中仍然使用字碼頁CP936表示,但是同樣的936的字碼頁跟一開始的936的字碼頁只支援GB2312編碼不同,現在的936字碼頁支援GBK的編碼,GBK同時也向下相容GB2312編碼。

3、 GB18030

2000年的GB18030取代了GBK1.0的正式國家標準。該標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。現在的PC平台必須支援GB18030,對嵌入式產品暫不作要求。所以手機、MP3一般只支援GB2312。

GB18030在windows中的字碼頁是CP54936。

4、 GB13000

GB13000等同於國際標準的《通用多八位編碼字元集 (UCS)》 ISO10646.1,就是等同於Unicode的標準,字碼頁等等的都使用UTF的一套標準。

 

從ASCII、GB2312、GBK到GB18030,這些編碼方法是向下相容的,即同一個字元在這些方案中總是有相同的編碼,後面的標準支援更多的字元。在這些編碼中,英文和中文可以統一地處理。區分中文編碼的方法是高位元組的最高位不為0。按照程式員的稱呼,GB2312、GBK到GB18030都屬於雙位元組字元集 (DBCS)。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.