前言
眾所周知電腦只能識別位元字,如1010,1001。我們螢幕所看到的文字,字元都是和二進位轉換後的結果。將我們的文字按照某種規則轉換二進位儲存在電腦上,這一個過程叫字元編碼,反之就是解碼。目前存在多種字元編碼方式,一組位元字根據不同的解碼方式,會得到不同的結果,有時甚至會得到亂碼。這也就是為什麼我們開啟網頁時有時會是亂碼,開啟一個文字檔有時也是亂碼,而換了一種編碼就恢複正常了。CLR中的所有字元都是16位Unicode來表示的。CLR中的Encoding就是用於位元組和字元之間的轉換的。更多字元編碼知識請參考,字元集和字元編碼(Charset & Encoding)
關於Encoding
CLR中的Encoding是在System.Text命名空間下的,它是一個抽象類別(abstract class), 所以不能被直接執行個體化,它主要有如下的衍生類別:ASCIIEnding,UnicodeEncoding,UTF32Encoding,UTF7Encoding,UTF8Encoding,你可以根據需要選擇一個合適的Encoding來進行編碼和解碼。你也可以調用Encoding的靜態屬性ASCII,Unicode,UTF32,UTF7,UTF8,來構造一個Encoding。其中Unicode是表示16位Encoding。調用靜態屬性和執行個體化一個子類的效果是一樣的,如下代碼。
1 Encoding encodingUTF8 = Encoding.UTF8;2 Encoding encodingUTF8 = new UTF8Encoding(true);
以下是這些類型的一些簡單描述:
ASCII編碼 將16位字元編碼成ASCII碼,只能轉換值小於Ox0080的16字元,並且被轉換成單位元組,就是說一個字元對應一個位元組。當字元都在ASCII範圍(0X00~0X7F)內時,可以用這種編碼,它的速度非常快,適合於英美地區的字元。這種編碼非常有限,漢字會被轉換成亂碼。在CLR對應ASCIIEndoing。
UTF-16 每個字元編碼成2個位元組,它不會對字元產生任何影響,也不會涉及到壓縮處理,效能非常好,因為CLR中的字元也是16位的Unicode。在CLR中對應UnicodeEncoding。
UTF-32 使用4個位元組編碼成一個字元。從記憶體角度上講,它並不是一種高效能的編碼方案,因為第個字元都是4個位元組,特別占記憶體,所以很少用來做檔案和網路流的編碼解碼。在CLR中對應UTF32Encoding。
UTF-8 值在Ox0080之下的字元壓縮成一個字元,也就是ASCII碼;值在0X0080---0X07FF之間的字元都轉換成2個字元,適合用於歐洲和中東地區。0X0800以上被轉換成3個字元,適合於東亞地區的字元。代理項被轉換成4個位元組。因此,它是一種非常流行的編碼,適用於互連網。它在處理0X0800以上的字元效率不好UTF-16。在CLR中對應UTF8Encoding。
UTF-7 這咱編碼通常用於舊的系統,那時的系統是用7位值表示。目前已經被Unicode協淘汰。在CLR中對應UTF7Encoding。
從效能角度上來講,如果你的代碼需要在多處調用一個Encoding,微軟建議你使用靜態成員的方式構造一個Encoding對象,而不是構造執行個體。它的內部實現是一個單例模式。
public static Encoding UTF8{ get { if (utf8Encoding == null) { utf8Encoding = new UTF8Encoding(true); } return utf8Encoding; }}
如果你知道某種編碼的字碼頁(code page)或名字,那麼你可以調用Encoding的靜態方法GetEncoding(int codepage),GetEncoding(string name)來構造一個Encoding,比如我們常用的用於顯示簡體中文的gb2312,它的字碼頁是936,我們就可以這樣定義:
Encoding encodingGB2312=Encoding.GetEncoding("gb2312");Encoding encodingGB2312=Encoding.GetEncoding(936);
目前有幾十種文字字碼頁,分別對應於不同的國家,不同的語言,它們只是對應Unicode字元集裡的相一部分,比如說936,它只是對應於Unicode字元集裡簡體中文的那一部分,如果你想正確的顯示繁體字,那麼就要用中文繁體對應的字碼頁950。具體的字碼頁有哪些可以參考MSDN或園子裡這篇文章,C#文字字碼頁,文字編碼的字碼頁名稱速查表。
下面代碼可以返回CLR中所有的Encoding。
foreach (EncodingInfo eInfo in Encoding.GetEncodings()) { Console.WriteLine("Encoding code page is {0}, encoding name is {1}", eInfo.CodePage, eInfo.Name); Console.WriteLine("Encoding dispaly name is {0}", eInfo.DisplayName); }
Encoding對象有一個靜態屬性Default,它返回的也是一個Encoding對象,至於返回哪個語言的Encoding取決於你電腦裡-->控制台->地區和語言 裡面的設定,也就是ANSI。如,我電腦裡設定是Chinses(Simplified, PRC)也就是簡體中文,那麼對應的就是gb2312,所以下面代碼會列印gb2312。如果你的代碼在不止一個國家裡使用,那麼你最好不要Encoding.Default,這樣會造成亂碼,你最好用Encoding.UTF8。
Encoding encoding1 = Encoding.Default;Console.WriteLine(encoding1.WebName);
待續。。。
下一節將講如何使用Encoding,BOM,還有Encoder及Decoder。。。。