JSP頁面編碼問題研究
來源:互聯網
上載者:User
Motivition
曾經有一個網友問過我這樣一個問題:
<%@page contentType="text/html; charset=UTF-8"%>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
中國
</body>
</html>
這個頁面在為什麼在啟動並執行時候“中國”會變成亂碼?
Analysis
Key Step
對於上面問題的分析需要從整個JSP頁面請求的生命週期來看,一般的都需要經曆下面幾個階段:
1。應用伺服器根據JSP頁面產生一個Java檔案
2。應用伺服器調用java.exe將Java檔案編譯成一個Servlet對應的class檔案
3。使用者的瀏覽器請求JSP對應的Servlet,Web容器起一個線程執行Servlet,將資料返回給用戶端瀏覽器
4。使用者的IE根據返回的資料,將結果顯示給使用者。
Key Step Analysis
為了更好的瞭解編碼問題,我們暫時先從上面的四個環節一步步來分析,根據分析的結果,來得到最終的解決辦法。
1. 在應用伺服器根據JSP頁面產生Java檔案階段。
應用伺服器會將整個JSP頁面的代碼讀取出來,然後寫到一個新的JAVA檔案中,在讀檔案和寫檔案的時候都牽涉到一個編碼問題,這個編碼問題應用伺服器是如何解決的呢?我研究Tomcat應用伺服器的原始碼,發現Tomcat中有一個pageEncoding參數非常重要,在ParserController會從JSP檔案中讀出這個參數(如果沒有讀到,就從第一行的contentType中讀取charset),然後儲存起來,如果沒有讀取到這個參數,會從JspConfig中讀出一個預設的PageEncoding參數,如果這兩個參數都沒有的設定,系統會預設成ISO8859-1的編碼來讀取原來的JSP檔案。
從上面的分析出,我們已經基本瞭解了應用伺服器讀取JSP檔案的編碼方式,由於Java底層都是基於Unicode編碼來儲存字元的,所以在寫檔案的時候,都輸出成Unicode編碼的形式。
2。在JDK將Java檔案編譯成Class檔案的時候
可以利用-encoding參數指定源檔案的編碼,這在手動編譯的時候非常重要,因為這決定了Java虛擬機器讀取Java檔案時採用的編碼方式,但是在Web應用中這個環節我們可以忽略,因為應用伺服器可以很好的解決這個編碼。以Tomcat為例,由於產生的java檔案是固定的UTF-8編碼,所以Tomcat也固定的採用UTF-8編碼來讀取,通過瀏覽AbstractCatalinaTask可以看到reader = new InputStreamReader(hconn.getInputStream(), CHARSET);其中的CHARSET=utf-8。所以在這個環節中應用伺服器都可以很好的把握,不會帶來編碼問題。