從XML檔案亂碼問題,探尋其背後的原理

來源:互聯網
上載者:User

如果本文圖片不能顯示,由於時間關係未能及時修正。請訪問原文地址:

本文出自http://blog.csdn.net/dinglang_2009/article/details/6895355,轉載請註明出處。

在日常開發工作中,我們經常會使用到XML,早已成為了一種標準。它的用途非常的廣泛,但這些不是本文所重點討論的。

相信大家在做開始時候經常碰到過“亂碼”的問題,這是中國程式員非常頭疼的問題。我一直很想深入研究關於“編碼”的原理,無奈水平有限,那些枯燥的理論(二進位,ASCII,Unicode,UTF-8,gb2312,ISO ...光這些就讓我看的兩眼發黑了),實在看不下去,也很難真正搞懂搞明白。望各位網友多指點......

我將用工作中遇到的一個“XML檔案亂碼”的簡單問題,解決問題,分析其背後的原理。

首先,我們在本地建立一個文字檔,將尾碼名改為".XML”, 然後用用記事本開啟,往裡面添加一些符合XML文檔規範的內容。:

 

寫好之後,按“ctrl+s”儲存,然後使用IE瀏覽器開啟該XML檔案,驗證該XML文檔的規範及正確性。不料,居然解析出錯了,如下:

 

這是咋回事呢?我的XML文檔定義的格式好像沒問題啊。無效字元?這肯定是典型的“編碼”問題了。聰明的我第一就想到了,調整IE瀏覽器的“編碼”嘛。

可是開啟“查看”“編碼”,發現那些編碼格式全是灰色的,好像不能選擇哦。這是因為,在定義XML文檔的時候,指定了編碼格式為"UTF-8",這就相當於告訴了瀏覽器(XML解析引擎):你必須使用"UTF-8"編碼去解析我,所以無法使用其他的編碼格式去查看了。

這是因為,我們在使用記事本儲存該文檔的時候,沒有選擇編碼格式,預設使用的是作業系統編碼(中文版的系統),也就是對應的"GB2312”編碼。當我們的IE瀏覽器,再使用我們指定的UTF-8編碼去解析該XML文檔的時候,出現了亂碼,所以造成了上面的錯誤。(Windows中的檔案儲存在硬碟上,預設使用作業系統編碼。比如我們XML文檔中定義的“中國”這兩個字,儲存好後,假如其對應的GB2312可能是"10001",而在UTF-8編碼中的,“10001”對應的就不是“中國”了,要麼找不到,要麼是亂碼,所以IE就拒絕顯示了)。那我們應該怎麼辦呢?有兩種辦法可以解決。

第一,我們在xml文檔定義時,指定其編碼為gb2312,如所示:

 

儲存之後,我們再使用IE瀏覽器開啟,結果

 

恭喜,這個問題解決了。但是這種方法不推薦使用。因為我們在定義XML文檔時候,為了文檔的通用性,我們一般使用UTF-8編碼。

第二種方法:

我們再用記事本開啟該文檔,點擊“另存新檔”,發現下面會有“編碼”選項,選擇“UTF-8”之後再試。

 

其實,我們在使用諸如 Eclipse 或者Microsoft Visual Studio之類的開發工具來定義XML文檔,並不會碰到上面的問題。原因是這些IDE都非常“聰明”,你的XML文檔指定的是那種編碼格式,IDE在將XML文檔儲存到硬碟的時候,就自動使用那種格式。所以,很多局限於使用某種IDE開發的程式員,其實並不明白這些知識及其背後的原理,但他們做開發起來一樣很順手。早年據筆者瞭解,國內有很多大牛,寫代碼都是用EditPlus之類的文字編輯器,而那些在Linux/unix上面的大牛,很多都是用VI/VIM來編碼。大概這就是差距吧。

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.