International - English

Topic Center

Contact Sales

首頁 > 其他

編碼知識學習筆記之三

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

編碼知識學習筆記之三

一．UTF-8的如何編碼

UTF-8就是以8位為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下：

序號	UCS-2編碼的範圍(16進位)	UTF-8 位元組流(二進位)	說明
1	0000 - 007F	0xxxxxxx	1個位元組，格式為 0xxxxxxx
2	0080 - 07FF	110xxxxx 10xxxxxx	2個位元組，格式分別為 110xxxxx 10xxxxxx
3	0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx	3個位元組，格式分別為： 1110xxxx 10xxxxxx 10xxxxxx

二．UTF-8編碼舉例

例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3位元組模板了：1110xxxx 10xxxxxx 10xxxxxx。

將6C49寫成二進位是：0110 110001 001001，用這個位元流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

三．UTF-16的如何編碼

UTF -16以16位為單元對UCS進行編碼。

對於小於0x10000的UCS碼，UTF-16編碼就等於UCS碼對應的16位不帶正負號的整數。

對於大於或者等於 0x10000的UCS碼，定義了一個演算法。

不過由於實際使用的UCS2，或者UCS4的BMP必然小於0x10000，所以就目前而言，可以認為UTF -16和UCS-2基本相同。

四．UTF-16與UCS-2的區別

UCS-2僅僅只是一個編碼方案，UTF-16卻要用於實際的傳輸，所以就不得不考慮位元組序的問題。

五．為什麼UTF編碼會有位元組序的問題

UTF -8以位元組為編碼單元，沒有位元組序的問題。

UTF-16以兩個位元組為編碼單元，在解釋一個UTF-16文本前，首先要弄清楚每個編碼單元的位元組序。例如收到一個“奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16位元組流“594E”，那麼這是“奎”還是 “乙”？

六．UFT位元組序理解

UTF-8沒有位元組序的問題

UTF-16有位元組序的問題

七．如何解決UTF-16位元組序的問題

Unicode規範中推薦的標記位元組順序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM具體方法：

在UCS 編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字元，它的編碼是FEFF。而FFFE在UCS中是不存在的字元，所以不應該出現在實際傳輸中。UCS規範建議我們在傳輸位元組流前，先傳輸字元"ZERO WIDTH NO-BREAK SPACE"。

這樣如果接收者收到FEFF，就表明這個位元組流是Big-Endian的；如果收到FFFE，就表明這個位元組流是Little-Endian的。因此字元"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

七．解決UTF-16位元組序的問題的方法：

BOM

BOM是Byte Order Mark的縮寫

八．BOM的實現思想：

在UCS 編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字元，它的編碼是FEFF。而FFFE在UCS中是不存在的字元，所以不應該出現在實際傳輸中。UCS規範建議我們在傳輸位元組流前，先傳輸字元"ZERO WIDTH NO-BREAK SPACE"。

這樣如果接收者收到FEFF，就表明這個位元組流是Big-Endian的；如果收到FFFE，就表明這個位元組流是Little-Endian的。因此字元"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

九．BOM對UTF-8的意義是什麼

UTF -8是不需要用BOM來表明位元組順序，但可以用BOM來表明編碼方式。

字元"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF

所以接收者如果收到以EF BB BF開頭的位元組流，就知道這是UTF-8編碼了。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

聯繫我們

該頁面正文內容均來源於網絡整理，並不代表阿里雲官方的觀點，該頁面所提到的產品和服務也與阿里云無關，如果該頁面內容對您造成了困擾，歡迎寫郵件給我們，收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至： info-contact@alibabacloud.com 進行舉報並提供相關證據，工作人員會在 5 個工作天內聯絡您，一經查實，本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More