關於.NET(C#)正確讀取中文編碼檔案的執行個體教程

來源:互聯網
上載者:User
首先如果讀者對編碼或者BOM還不熟悉的話,推薦先讀這篇文章:.NET(C#):字元編碼(Encoding)和位元組順序標記(BOM)。
中文編碼基本可以分成兩大類:
1. ANSI編碼的擴充集合:比如GBK, GB2312, GB18030等,這類編碼都不存在BOM(一些更新的標準中文編碼,比如GB18030和GBK編碼,都向後相容GB2312編碼)。
2. Unicode編碼集合:比如UTF-8, UTF-16, UTF-32等。這類編碼可以有BOM,也可以不加BOM。
3. 部分Unicode編碼還存在具體位元組次序問題(Endianess),就是所謂的Little endian和Big endian之分,不同此節次序對於不同的BOM,比如UTF16,不過UTF8不存在位元組次序問題。

OK,瞭解了基本知識後,讓我們回到主題,該如何正確開啟中文文字檔。第一個需要確認的資訊是:你的Unicode編碼檔案是否包含BOM?

如果包含BOM的話,那麼一切好說!因為如果我們發現了BOM,我們就知道他的具體編碼了。如果沒有發現BOM,那就不是Unicode,我們用系統預設的ANSI擴充中文編碼集開啟文字檔就OK了。
而如果Unicode編碼沒有BOM的話(顯然,你不能保證使用者給你的所有Unicode檔案都是有BOM的),那麼你要手動從原始位元組中判斷他是GBK?還是UTF8?還是其他編碼?。這個就需要具體的編碼覺察演算法了(可以google “charset|encoding detection”), 當然編碼覺察演算法不一定會100%準確,正是因為這點,Windows記事本會有Bush hid the facts bug。在Chrome瀏覽網頁時,也會遇到亂碼的情況的。個人感覺,Notepad++的編碼覺察做的還是很準確的。
編碼覺察演算法有很多,比如這個工程:https://code.google.com/p/ude


如果Unicode都帶BOM的話,則就不需要第三方類庫了。不過也有一些需要說明的地方。

問題就是.NET中讀取文本方法(File類和StreamReader)預設是以UTF8編碼來讀取的,因此此類GBK的文字檔直接用.NET開啟(不指定編碼的話)結果肯定是亂碼!

首先這裡最有效地解決方案是使用系統預設的ANSI擴充編碼,也就是系統預設的非Unicode編碼來讀取文本,參考代碼:

//輸出系統預設非Unicode編碼Console.WriteLine(Encoding.Default.EncodingName);//使用系統預設非Unicode編碼來開啟檔案var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);

在簡體中文的Windows系統下應該輸出:

簡體中文(GB2312)<常值內容省略>...

而且使用這個方法其實是不限於簡體中文的。

當然也可以手動去指定一個編碼,比如就是GBK編碼,但是如果用指定的GBK編碼去開啟一個Unicode檔案,檔案還會開啟成功嗎?答案是仍然成功。原因是.NET在開啟檔案時預設會自動覺察BOM然後用根據BOM得到的編碼去開啟檔案,如果沒有BOM再用使用者指定的編碼區開啟檔案,如果使用者沒有指定編碼,則使用UTF8編碼。

這個”自動覺察BOM“的參數可以在StreamReader中建構函式中設定,對應detectEncodingFromByteOrderMarks參數。

但是在File類的相應方法中無法設定。(比如:File.ReadAllText)。

比如下面代碼,分別用:

GB2312編碼,自動覺察BOM 來讀取GB2312文本

GB2312編碼,自動覺察BOM 來讀取Unicode文本

GB2312編碼,不覺察BOM 來讀取Unicode文本

static void Main(){    var gb2312 = Encoding.GetEncoding("GB2312");    //用GB2312編碼,自動覺察BOM 來讀取GB2312文本    ReadFile("gbk.txt", gb2312, true);    //用GB2312編碼,自動覺察BOM 來讀取Unicode文本    ReadFile("unicode.txt", gb2312, true);    //用GB2312編碼,不覺察BOM 來讀取Unicode文本    ReadFile("unicode.txt", gb2312, false);}//通過StreamReader讀取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){    StreamReader sr;    using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks))    {        Console.WriteLine(sr.ReadToEnd());    }}

輸出:

a劉a劉???

第三行是亂碼。

看到上面,使用GB2312編碼去開啟Unicode檔案也會成功的。因為“自動覺察BOM”參數為True,所以當發現該檔案有BOM,.NET會通過BOM覺察到是Unicode檔案,然後用Unicode去開啟檔案的。當然如果沒有BOM,會使用指定的編碼參數去開啟檔案。對於GB2312編碼的文本,顯然是沒有BOM的,所以必須指定GB2312編碼,否則.NET會用預設的UTF8編碼去解析檔案,是無法讀取結果的。第三行出現亂碼則是由於“自動覺察BOM”為False,.NET會直接用指定的GB2312編碼去讀取一個有BOM的Unicode編碼文字檔,顯然無法成功的。

當然還可以自己判斷BOM,如果沒有BOM的話,指定一個預設編碼去開啟文本。我在以前一篇文章中寫到過(.NET(C#):從檔案中覺察編碼)。

代碼:

static void Main(){    PrintText("gb2312.txt");    PrintText("unicode.txt");}//根據檔案自動覺察編碼並輸出內容static void PrintText(string path){    var enc = GetEncoding(path, Encoding.GetEncoding("GB2312"));    using (var sr = new StreamReader(path, enc))    {        Console.WriteLine(sr.ReadToEnd());    }}/// <summary>/// 根據檔案嘗試返回字元編碼/// </summary>/// <param name="file">檔案路徑</param>/// <param name="defEnc">沒有BOM返回的預設編碼</param>/// <returns>如果檔案無法讀取,返回null。否則,返回根據BOM判斷的編碼或者預設編碼(沒有BOM)。</returns>static Encoding GetEncoding(string file, Encoding defEnc){    using (var stream = File.OpenRead(file))    {        //判斷流可讀?        if (!stream.CanRead)            return null;        //位元組數組儲存BOM        var bom = new byte[4];        //實際讀入的長度        int readc;        readc = stream.Read(bom, 0, 4);        if (readc >= 2)        {            if (readc >= 4)            {                //UTF32,Big-Endian                if (CheckBytes(bom, 4, 0x00, 0x00, 0xFE, 0xFF))                    return new UTF32Encoding(true, true);                //UTF32,Little-Endian                if (CheckBytes(bom, 4, 0xFF, 0xFE, 0x00, 0x00))                    return new UTF32Encoding(false, true);            }            //UTF8            if (readc >= 3 && CheckBytes(bom, 3, 0xEF, 0xBB, 0xBF))                return new UTF8Encoding(true);            //UTF16,Big-Endian            if (CheckBytes(bom, 2, 0xFE, 0xFF))                return new UnicodeEncoding(true, true);            //UTF16,Little-Endian            if (CheckBytes(bom, 2, 0xFF, 0xFE))                return new UnicodeEncoding(false, true);        }        return defEnc;    }}//輔助函數,判斷位元組中的值static bool CheckBytes(byte[] bytes, int count, params int[] values){    for (int i = 0; i < count; i++)        if (bytes[i] != values[i])            return false;    return true;}

上面代碼,對於Unicode文本,GetEncoding方法會返回UTF16編碼(更具體:還會根據BOM返回Big或者Little-Endian的UTF16編碼),而沒有BOM的檔案則會返回預設值GB2312編碼。

Related Posts:

.NET(C#):從檔案中覺察編碼

.NET(C#):字元編碼(Encoding)和位元組順序標記(BOM)

.NET(C#):使用System.Text.Decoder類來處理“流文本”

.NET(C#):淺談資訊清單資源和RESX資源

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.