因為一直不信Java竟會有不能混排顯示多國語言的BUG,這個周末研究了一下Servlet、Jsp的多國語言 顯示的問題,也就是Servlet的多字元集問題,由於我對字元集的概念還不是很清晰所以寫出的東西未必 是準確的,我是這樣理解Java中的字元集的:在運行時,每個字串對象中儲存的都是編碼為UNICODE內 碼的(筆者認為所有的語言中都是有相應編碼的,因為在電腦內部字串總是用內碼來表示的,只不過 一般電腦語言中的字串編碼時平台相關的,而Java則採用了平台無關的UNICODE)。
Java從一個byte流中讀取一個字串時,將把平台相關的byte轉變為平台無關的Unicode字串。在輸 出時Java將把Unicode字串轉變為平台相關的byte流,如果某個Unicode字元在某個平台上不存在,將會 輸出一個´?´。舉個例子:在中文Windows中,Java讀出一個"GB2312"編碼的檔案 (可以是任何流)到記憶體中構造字串對象,將會把GB2312編碼的文字轉變為Unicode編碼的字串,如 果把這個字串輸出又將會把Unicode字串轉化為GB2312的byte流或數組:"中文測試"---- ->"u4e2du6587u6d4bu8bd5"----->"中文測試"。
byte[] bytes = new byte[]{(byte)0xd6, (byte)0xd0, (byte)0xce,
(byte)0xc4, (byte)0xb2, (byte)0xe2, (byte)0xca, (byte)0xd4};//GBK編碼的"中文測試 "
java.io.ByteArrayInputStream bin = new java.io.ByteArrayInputStream(bytes);
java.io.BufferedReader reader =new java.io.BufferedReader(new java.io. InputStreamReader (bin,"GBK"));
String msg = reader.readLine();
System.out.println(msg)
這段程式放到包含"中文測試"這四個字的系統(如中文系統)中,可以正確地列印出這些 字。msg字串中包含了正確的"中文測試"的Unicode編碼: "u4e2du6587u6d4bu8bd5",列印時轉換為作業系統的預設字元集,是否可以正確顯示依賴於操 作系統的字元集,只有在支援相應字元集的系統中,我們的資訊才能正確的輸出,否則得到的將會是垃圾 。
話入正題,我們來看看Servlet/Jsp中的多語言問題。我們的目標是,任一國家的用戶端通過Form向 Server發送資訊,Server把資訊存入資料庫中,用戶端在檢索時仍然能夠看到自己發送的正確資訊。事實 上,我們要保證,最終Server中的SQL語句中儲存的時包含用戶端發送文字的正確Unicode編碼;DBC與數 據庫通訊時採用的編碼方式能包含用戶端發送的文字資訊,事實上,最好讓JDBC直接使用UNICODE/UTF8與 資料庫通訊!這樣就可以確保不會丟失資訊;Server向用戶端發送的資訊時也要採用不丟失資訊的編碼方 式,也可以是Unicode/Utf8。
如果不指定Form的Enctype屬性,Form將把輸入的內容依照當前頁面的編碼字元集urlencode之後再提 交,伺服器端得到是urlencoding的字串。編碼後得到的urlencoding字串是與頁面的編碼相關的,如 gb2312編碼的頁面提交"中文測試",得到的是"%D6%D0%CE%C4%B2%E2%CA%D4",每個 "%"後跟的是16進位的字串;而在UTF8編碼時得到的卻是"%E4%B8%AD%E6%96%87%E6% B5%8B%E8%AF%95",因為GB2312編碼中一個漢字是16位的,而UTF8中一個漢字卻是24位的。中日韓三 國的ie4以上瀏覽器均支援UTF8編碼,這種方案肯定包涵了這三國語言,所以我們如果讓Html頁面使用 UTF8編碼那麼將至少可以支援這三國語言。
但是,如果我們html/Jsp頁面使用UTF8編碼,因為應用程式伺服器可能不知道這種情況,因為如果瀏 覽器發送的資訊不包含charset資訊,至多Server知道讀到Accept-Language請求投標,我們知道僅靠這個 投標是不能獲知瀏覽器所採用編碼的,所以應用程式伺服器不能正確解析提交的內容,為什嗎?因為Java 中的所有字串都是Unicode16位編碼的,HttpServletRequest.request(String)的功能就是把用戶端提 交的Urlencode編碼的資訊轉為Unicode字串,有些Server只能認為用戶端的編碼和Server平台相同,簡 單地使用URLDecoder.decode(String)方法直接解碼,如果用戶端編碼恰好和Server相同,那麼就可以得 到正確地字串,否則,如果提交地字串中包含了當地字元,那麼將會導致垃圾資訊。