1、 GB2312
GB2312(1980年)一共收錄了7445個字元,包括6763個漢字和682個其它符號。漢字區的內碼範圍高位元組從B0-F7,低位元組從A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
在windows中的字碼頁是CP936
2、 GBK
GBK最初是由微軟對GB2312的擴充,也就是CP936字碼錶 (Code Page 936)的擴充(原來的CP936和GB 2312-80一模一樣),最初出現於Windows 95簡體中文版中,由於Windows產品的流行和在大陸廣泛被使用,中華人民共和國國家有關部門將其作為技術規範。注意GBK並非國家正式標準,只是國家技術監督局標準化司、電子工業部科技與品質監督司發布的“技術規範指導性檔案”。雖然 GBK收錄了所有Unicode 1.1及GB 13000.1-93之中的漢字,但是編碼方式與Unicode 1.1及GB 13000.1-93不同。僅僅是GB 2312到GB 13000.1-93之間的過渡方案。GBK收錄了21886個符號,它分為漢字區和圖形符號區。漢字區包括21003個字元。
GBK作為對GB2312的擴充,在現在的windows系統中仍然使用字碼頁CP936表示,但是同樣的936的字碼頁跟一開始的936的字碼頁只支援GB2312編碼不同,現在的936字碼頁支援GBK的編碼,GBK同時也向下相容GB2312編碼。
3、 GB18030
2000年的GB18030取代了GBK1.0的正式國家標準。該標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。現在的PC平台必須支援GB18030,對嵌入式產品暫不作要求。所以手機、MP3一般只支援GB2312。
GB18030在windows中的字碼頁是CP54936。
4、 GB13000
GB13000等同於國際標準的《通用多八位編碼字元集 (UCS)》 ISO10646.1,就是等同於Unicode的標準,字碼頁等等的都使用UTF的一套標準。
從ASCII、GB2312、GBK到GB18030,這些編碼方法是向下相容的,即同一個字元在這些方案中總是有相同的編碼,後面的標準支援更多的字元。在這些編碼中,英文和中文可以統一地處理。區分中文編碼的方法是高位元組的最高位不為0。按照程式員的稱呼,GB2312、GBK到GB18030都屬於雙位元組字元集 (DBCS)。