jsp/servlet編碼原理

來源:互聯網
上載者:User

標籤:tar   應用   其他   ons   錯誤   unicode   tom   問題   target   

轉自:http://janwer.iteye.com/blog/150226

 

 首先,說說 JSP/Servlet 中的幾個編碼的作用
  在 JSP/Servlet 中主要有以下幾種設定編碼的方式:

    1. pageEncoding ="UTF-8"(JSP)
    2. contentType = "text/html;charset=UTF-8"(JSP)
    3. request.setCharacterEncoding("UTF-8")(JSP,Servlet)
    4. response.setCharacterEncoding("UTF-8")(JSP,Servlet)

 

  其中前兩個只能用於JSP 中,而後兩個可以用於 JSP 和 Servlet 中。
  1、pageEncoding="UTF-8" 的作用是設定 JSP 編譯成 Servlet 時使用的編碼
  眾所周知,JSP 在伺服器上是要先被編譯成 Servlet 的。pageEncoding="UTF-8" 的作用就是告訴 JSP 編譯器在將 JSP 檔案編譯成Servlet 時使用的編碼。通常,在 JSP 內部定義的字串(直接在 JSP 中定義,而不是從瀏覽器提交的資料)出現亂碼時,很多都是由於該參數設定錯誤引起的。例如,你的JSP 檔案是以GBK 為編碼儲存的,而在JSP 中卻指定pageEncoding="UTF-8" ,就會引起JSP 內部定義的字串為亂碼。
  另外,該參數還有一個功能,就是在JSP中不指定 contentType 參數,也不使用response.setCharacterEncoding 方法時,指定對伺服器響應進行重新編碼的編碼。
  2、contentType="text/html;charset=UTF-8" 的作用是指定對伺服器響應進行重新編碼的編碼
  在不使用 response.setCharacterEncoding 方法時,用該參數指定對伺服器響應進行重新編碼的編碼。

 

  3、 request.setCharacterEncoding("UTF-8") 的作用是設定對“用戶端請求”進行重新編碼的編碼。
  該方法用來指定對瀏覽器發送來的資料進行重新編碼(或者稱為解碼)時,使用的編碼。
  4、 response.setCharacterEncoding("UTF-8") 的作用是指定對“伺服器響應”進行重新編碼的編碼。
  伺服器在將資料發送到瀏覽器前,對資料進行重新編碼時,使用的就是該編碼。

 

 

 

  其次,要說一說瀏覽器是怎麼樣對接收和發送的資料進行編碼的 

 

  response.setCharacterEncoding("UTF-8") 的作用是指定對伺服器響應進行重新編碼的編碼。同時,瀏覽器也是根據這個參數來對其接收到的資料進行重新編碼(或者稱為解碼)。所以在無論你在 JSP 中設定 response.setCharacterEncoding("UTF-8") 或者response.setCharacterEncoding ("GBK") ,瀏覽器均能正確顯示中文(前提是你發送到瀏覽器的資料編碼是正確的,比如正確設定了pageEncoding 參數等)。可以做個實驗,在JSP 中設定response.setCharacterEncoding("UTF-8") ,在 IE 中顯示該頁面時,在 IE 的菜單中選擇 " 查看 (V)"-->" 編碼(D)" 中可以查看到是 " Unicode(UTF-8)" ,而在在 JSP 中設定response.setCharacterEncoding("GBK") ,在 IE 中顯示該頁面時,在 IE 的菜單中選擇 " 查看(V)--> 編碼(D)" 中可以查看到是" 簡體中文(GB2312)" 。
  瀏覽器在發送資料時,對 URL 和參數會進行 URL 編碼,對參數中的中文,瀏覽器也是使response.setCharacterEncoding 參數來進行 URL 編碼的。以百度和 GOOGLE 為例,如果你在百度中搜尋"漢字",百度會將其編碼為"%BA%BA%D7%D6" 。而在 GOOGLE 中搜尋"漢字",GOOGLE 會將其編碼為 "%E6%B1%89%E5%AD%97" ,這是因為百度的response.setCharacterEncoding 參數為 GBK ,而 GOOGLE 的response.setCharacterEncoding 參數為 UTF-8 。
  瀏覽器在接收伺服器資料和發送資料到伺服器時所使用的編碼是相同的,預設情況下均為 JSP 頁面的 response.setCharacterEncoding 參數(或者 contentType 和 pageEncoding 參數),我們稱其為瀏覽器編碼。當然,在IE中可以修改瀏覽器編碼(在IE的菜單中選擇" 查看(V)--> 編碼(D)" 中修改),但通常情況下,修改該參數會使原本正確的頁面中出現亂碼。一個有趣的例子是,在 IE 中瀏覽 GOOGLE 的首頁時,將瀏覽器編碼修改為"簡體中文(GB2312)" ,此時,頁面上的中文會變成亂碼,不理它,在文字框中輸入"漢字",提交,GOOGLE 會將其編碼為"%BA%BA%D7%D6" ,可見,瀏覽器在對中文進行URL 編碼時,使用的就是瀏覽器編碼。

 


  弄清了瀏覽器是在接收和發送資料時,是如何對資料進行編碼的了,再來看看伺服器是在接收和發送資料時,是如何對資料進行編碼的。
  對於發送資料,伺服器按照response.setCharacterEncoding—>contentType—>pageEncoding 的優先順序,對要發送的資料進行編碼。
  對於接收資料,要分三種情況。一種是瀏覽器直接用URL提交的資料,另外兩種是用表單的GET 和 POST 方式提交的資料。
  因為各種 WEB 伺服器對這三種方式的處理也不相同,所以我們以 Tomcat5.0 為例。
  無論使用那種方式提交,如果參數中包含中文,瀏覽器都會使用當前瀏覽器編碼對其進行 URL 編碼。
  對於表單中 POST 方式提交的資料,只要在接收資料的 JSP 中正確request.setCharacterEncoding 參數,即將對用戶端請求進行重新編碼的編碼設定成瀏覽器編碼,就可以保證得到的參數編碼正確。有人可能會問,那如何得到瀏覽器編碼呢?上面提過了,在預設請情況下,瀏覽器編碼就是你在響應該請求的 JSP 頁面中response.setCharacterEncoding 設定的值。所以對於 POST 表單提交的資料,在獲得資料的 JSP 頁面中 request.setCharacterEncoding 要和產生提交該表單的JSP頁面的 response.setCharacterEncoding 設定成相同的值。
  對於 URL 提交的資料和表單中 GET 方式提交的資料,在接收資料的 JSP 中設定 request.setCharacterEncoding 參數是不行的,因為在 Tomcat5.0 中,預設情況下使用ISO-8859-1 對 URL 提交的資料和表單中 GET 方式提交的資料進行重新編碼(解碼),而不使用該參數對 URL 提交的資料和表單中 GET 方式提交的資料進行重新編碼(解碼)。要解決該問題,應該在 Tomcat 的設定檔的 Connector 標籤中設定useBodyEncodingForURI 或者 URIEncoding 屬性,其中 useBodyEncodingForURI 參數表示是否用 request.setCharacterEncoding 參數對 URL 提交的資料和表單中 GET 方式提交的資料進行重新編碼,在預設情況下,該參數為 false (Tomcat4.0 中該參數預設為true );URIEncoding 參數指定對所有 GET 方式請求(包括 URL 提交的資料和表單中 GET 方式提交的資料)進行統一的重新編碼(解碼)的編碼。URIEncoding 和 useBodyEncodingForURI 區別是,URIEncoding 是對所有 GET 方式的請求的資料進行統一的重新編碼(解碼),而 useBodyEncodingForURI 則是根據響應該請求的頁面的request.setCharacterEncoding 參數對資料進行的重新編碼(解碼),不同的頁面可以有不同的重新編碼(解碼)的編碼。所以對於 URL 提交的資料和表單中 GET 方式提交的資料,可以修改 URIEncoding 參數為瀏覽器編碼或者修改 useBodyEncodingForURI 為true ,並且在獲得資料的 JSP 頁面中 request.setCharacterEncoding 參數設定成瀏覽器編碼。

 


  下面總結下,以 Tomcat5.0 為 WEB 伺服器時,如何防止中文亂碼

 

    1. 對於同一個應用,最好統一編碼,推薦為 UTF-8 ,當然 GBK 也可以。
    2. 正確設定 JSP 的 pageEncoding 參數
    3. 在所有的 JSP/Servlet 中設定 contentType="text/html;charset=UTF-8" 或response.setCharacterEncoding("UTF-8") ,從而間接實現對瀏覽器編碼的設定。
    4. 對於請求,可以使用過濾器或者在每個 JSP/Servlet 中設定request.setCharacterEncoding ("UTF-8") 。同時,要修改 Tomcat 的預設配置,推薦將 useBodyEncodingForURI 參數設定為 true ,也可以將 URIEncoding 參數設定為 UTF-8 (有可能影響其他應用,所以不推薦.)。

 

jsp/servlet編碼原理

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.