標籤:style blog code http tar color
以前寫過一篇貼子是寫中文在unicode中的編碼範圍 unicode中文範圍,但寫的不是很詳細,今天再次研究了下unicode,並給出詳細的unicode取值範圍。
本次研究的unicode對象是unicode 5.2.0版本。現在最新的是6.0版
對於這次研究的unicode把編碼分為以下幾個平面(英文中是plane,可以認為就是不同的區位)
Unicode可以邏輯分為17平面(Plane),每個平面擁有65536( = 216)個代碼點,雖然目前只有少數平面被使用。
平面0 (0000–FFFF): 基本多文種平面(Basic Multilingual Plane, BMP).
平面1 (10000–1FFFF): 多文種補充平面(Supplementary Multilingual Plane, SMP).
平面2 (20000–2FFFF): 表意文字補充平面(Supplementary Ideographic Plane, SIP).
平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
平面4 to 13 (40000–DFFFF)尚未使用
平面14 (E0000–EFFFF): 特別用途補充平面(Supplementary Special-purpose Plane, SSP)
平面15 (F0000–FFFFF)保留作為私人使用區(Private Use Area, PUA)
平面16 (100000–10FFFF),保留作為私人使用區(Private Use Area, PUA)
最有用的當然就是BMP平面0了編碼從U+0000至U+FFFF。那裡包含了幾乎全部的常用字元。
unicode基本平面區的編碼區間含義
為鑒於Unicode原有的16位空間不足以應用,於是從Unicode 3.1版本開始,設立了16個擴充字碼空間,稱為輔助平面,
使 Unicode 的可使用空間由6萬多字增至約100萬字。輔助平面字元要用上4位元組來儲存。
unicode中的幾大區間
最後小結下:
1、現在網上大多數用於判斷中文字元的是 U+4E00..U+9FA5 這個範圍是只是“中日韓統一表意文字”這個區間,但這不是全部,如果要全部包含,則還要他們的擴充集、部首、象形字、注間字母等等;
2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F
其中
2E80-A4CF
包含了中日朝部首補充、康熙部首、表意文字描述符、中日朝符號和標點、日文平假名、日文片假名、注音字母、諺文相容字母、象形字注釋標誌、注音字母擴充、中日朝筆畫、日文片假名語音擴充、帶圈中日朝字母和月份、中日朝相容、中日朝統一表意文字擴充A、易經六十四卦符號、中日韓統一表意文字、彝文音節、彝文字根
F900-FAFF
中日朝相容表意文字
FE30-FE4F
中日朝相容形式
所以,一般用4E00-9FA5已經可以,如果要更廣,則用2E80-A4CF || F900-FAFF || FE30-FE4F
2、全形ASCII、全形中英文標點、半寬片假名、半寬平假名、半寬韓文字母:FF00-FFEF
3、不要太關心簡繁中文的區別,如果要明確非要簡體中文可參考unicode中簡體中文編碼
轉載自:
http://www.iteye.com/topic/977671