關於JSP頁面中的pageEncoding和contentType兩種屬性的詳細解析__JSP

來源:互聯網
上載者:User

<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

 

簡單的說,pageEncoding是jsp檔案本身的編碼 contentType的charset是指伺服器發送給用戶端時的內容編碼,例如:pageEncoding="GBK",這句話的意思是,告訴JVM 這個jsp本身採用的"GBK"編碼,在JSP編譯成Servlet傳給JVM的時候,就用“GBK”的編碼方式將Jsp網頁源檔案翻譯成統一的UTF-8形式的Java位元組碼,如果不加設定,則 JVM預設的用iso-8859這種編碼方式。 contentType裡的charset=gbk,指示的是此網頁檔案輸出到瀏覽器的輸出方式為gbk。在這個過程中,一個JSP的源檔案需要經過三個階段、兩次編碼,才能完成一次完整的輸出。

以一個JSP檔案通過Servlet容器假(設為Tomcat)輸出到瀏覽器並顯示的過程為例來說明三個階段、兩次編碼的具體過程

第一階段:第一次編碼:從JSP到Servlet(.java檔案),從pageEncoding ———>UTF-8

在第一階段中完成Jsp的第一次編碼:第一次編碼用到的指令是pageEncoding,根據pageEncoding=“XXX”的指示,找到編碼的規則為“XXX”,伺服器在將JSP檔案編譯成.java檔案時會根據pageEncoding的設定讀取jsp,結果是由指定的編碼方案翻譯成統一的UTF-8 JAVA源碼(即.java),如果pageEncoding沒有設定,則使用預設的iso-8859這種編碼方式。設定錯了出來的就是中文亂碼。

第二階段:從Servlet檔案(.java)到Java位元組碼檔案(.class),從UTF-8———>UTF-8

第一階段是將jsp編譯成.java檔案,第二階段主要是將(.java)的源檔案翻譯成JVM可識別的java byteCode,也就是Java位元組碼檔案,是由JAVAC命令完成的,這些檔案就是通常我們所說的(.class)檔案。在這一階段中,不論JSP編寫時候用的是什麼編碼方案,經過這個階段的結果全部是UTF-8的encoding的java源碼。 JAVAC用UTF-8的encoding讀取java源碼,編譯成UTF-8 encoding的二進位碼(即.class),這是JVM對常數字串在二進位碼(java encoding)內表達的規範。這一過程是由JVM的內在規範決定的,不受外界控制項,這也是為什麼,有時候看起來是亂碼的程式能編譯通過,但是去無法正常顯示的原因。

第三階段:第二次編碼:從Tomcat伺服器到瀏覽器,從UTF-8―――>contentType

這一階段,主要是Tomcat顯示的輸出JSP網頁的過程,這在一過程中用到的指令是contentType。 Tomcat(或其的application container)載入和執行由第二階段產生出來JAVA二進位碼,輸出的結果,也就是在用戶端可見到的結果,在這事輸出過程中,由contentType屬性中的charset來指示,將UTF8形式的二進位碼以charset的編碼形式來輸出。如果沒有人為設定,則預設的是ISO8859-1.的形式。

注意的問題:以上說的這個過程在大多資料情況是普遍適用的。但這也不是絕對的, 還要看各自JSPC的處理方式. 在網頁設計中,設定pageEncoding不等於contentType, 更有利亞洲區的文字 CJKV系JSP網頁的開發和展示, (例pageEncoding=GB2312 不等於 contentType=utf-8)。 jsp檔案不像.java,.java在被編譯器讀入的時候預設採用的是作業系統所設定的locale所對應的編碼,比如中國大陸就是GBK,台灣就是BIG5或者MS950。而一般我們不管是在記事本還是在ue中寫代碼,如果沒有經過特別轉碼的話,寫出來的都是本地編碼格式的內容。所以編譯器採用的方法剛好可以讓虛擬機器得到正確的資料。 但是jsp檔案不是這樣,它沒有這個預設轉碼過程,如果指定了pageEncoding就可以實現正確轉碼了。 舉個例子: <%@ page contentType="text/html;charset=utf-8" %> 大都會列印出亂碼,因為輸入“你好”的編碼方式你沒有指定,在大多數情況下我們在中國大陸地區所用的電腦在輸入的“你好”的時候,都會用gbk來編碼,但是對伺服器而言,是否正確抓到“你好”卻不得而知。 但是如果更改為 <%@ page contentType="text/html;charset=utf-8" pageEncoding="GBK"%> 這樣就伺服器一定會是正確抓到“你好”了,這就是為什麼有兩個不同的指令設定,和兩次不同的編碼過程。

明白了這三個階段和兩次編碼過程,那麼在編程的時候,JSP網頁中、資料庫中、Web伺服器中,關於一些字元的設定就會很清楚,要不然,會設來設去,字元跟著轉來轉去,最終沒沒轉出過正確的來,記住一點,萬變不離其蹤,只要把最本質的東西搞明白,不管怎麼變都不會有太大的問題。

近期筆者會把資料庫與網頁互動過程中出現的一些亂碼問題、字元集問題、編碼規則問題再整理下,在下一篇文章中與讀者見面。

 

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.