Tomcat作為一個Web應用伺服器,最主要的當然就是向客戶(瀏覽器)響應請求的資料,最常用的也就是使用HTTP協議來完成於客戶的互動。所以在進一步學習Tomcat前還是再鞏固一下HTTP協議的知識。
HTTP協議(HyperText Transfer Protocol,超文字傳輸通訊協定 (HTTP))是用於從WWW伺服器傳輸超文本到本地瀏覽器的傳送協議。它可以使瀏覽器更加高效,使網路傳輸減少。它不僅保證電腦正確快速地傳輸超文字文件,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示(如文本先於圖形)等。預設HTTP的連接埠號碼為80,在我們自己的應用中通常會根據需要修改這個連接埠號碼
1、 HTTP的請求響應模型
HTTP協議永遠都是用戶端發起請求,伺服器回送響應。見:
所以在用戶端沒有發起請求的時候,伺服器將訊息推送給用戶端。同時HTTP協議是一個無狀態的協議,同一個用戶端的這次請求和上次請求是沒有對應關係,所以它不會為用戶端儲存上次傳遞的資料內容,如果下次請求時服務端還需要這些資料,那隻能重新再傳遞一次。
2、 工作流程
一次HTTP操作稱為一個事務,其工作過程可分為四步:
1)首先客戶機與伺服器需要建立串連。只要單擊某個超級連結,HTTP的工作開始。
2)建立串連後,客戶機發送一個請求給伺服器,請求方式的格式為:統一資源識別項(URL)、協議版本號碼,後邊是MIME資訊包括請求修飾符、客戶機資訊和可能的內容。
3)伺服器接到請求後,給予相應的響應資訊,其格式為一個狀態行,包括資訊的協議版本號碼、一個成功或錯誤的代碼,後邊是MIME資訊包括伺服器資訊、實體資訊和可能的內容。
4)用戶端接收伺服器所返回的資訊通過瀏覽器顯示在使用者的顯示屏上,然後客戶機與伺服器中斷連線。
如果在以上過程中的某一步出現錯誤,那麼產生錯誤的資訊將返回到用戶端,有顯示屏輸出。對於使用者來說,這些過程是由HTTP自己完成的,普通使用者只要用滑鼠點擊,等待資訊顯示就可以了。
大家在學習http協議的過程中,可以藉助httpWatch/wireShark等抓包工具進行抓包,根據抓包的資料再結合http的知識進行學習,這樣更能加深印象。
3、 http協議URL
HTTP URL (URL是一種特殊類型的URI,包含了用於尋找某個資源的足夠的資訊)的格式如下:
http://host[":"port][abs_path]
http表示要通過HTTP協議來定位網路資源;host表示合法的Internet主機網域名稱或者IP地址;port指定一個連接埠號碼,為空白則使用預設連接埠80;abs_path指定請求資源的URI;如果URL中沒有給出abs_path,那麼當它作為請求URI時,必須以“/”的形式給出,通常這個工作瀏覽器自動幫我們完成。
eg:
1、輸入:www.guet.edu.cn
瀏覽器自動轉換成:http://www.guet.edu.cn/
http協議是基於要求-回應模式的,這就意味著一次通訊至少包括請求,響應兩本部分。
4、 http協議-用戶端請求
http請求由三部分組成,分別是:請求行、訊息前序、請求本文。如是一次http請求的頭資訊
圖1
請求行
請求行以一個方法符號開頭,以空格分開,後面跟著請求的URI和協議的版本,格式如下:MethodRequest-URI HTTP-Version CRLF 。圖1的第一行就是請求行資訊。
其中 Method表示要求方法;Request-URI是一個統一資源識別項;HTTP-Version表示請求的HTTP協議版本;CRLF表示斷行符號和換行(除了作為結尾的CRLF外,不允許出現單獨的CR或LF字元)
要求方法(所有方法全為大寫)有多種,常用方法的解釋如下:
GET 請求擷取Request-URI所標識的資源
POST 在Request-URI所標識的資源後附加新的資料
HEAD 請求擷取由Request-URI所標識的資源的響應訊息前序
PUT 請求伺服器儲存一個資源,並用Request-URI作為其標識
DELETE 請求伺服器刪除Request-URI所標識的資源
TRACE 請求伺服器回送收到的請求資訊,主要用於測試或診斷
CONNECT 保留將來使用
OPTIONS 請求查詢服務器的效能,或者查詢與資源相關的選項和需求
5、 http服務端響應
圖2
在接收和解釋請求訊息後,伺服器返回一個HTTP響應訊息。
HTTP響應也是由三個部分組成,分別是:狀態行、訊息前序、響應本文 如2
1、狀態行格式如下:
HTTP-Version Status-Code Reason-Phrase CRLF
其中,HTTP-Version表示伺服器HTTP協議的版本;Status-Code表示伺服器發回的響應狀態碼;Reason-Phrase表示狀態碼的文本描述。
狀態碼有三位元字組成,第一個數字定義了響應的類別,且有五種可能取值:
1xx:指示資訊--表示請求已接收,繼續處理
2xx:成功--表示請求已被成功接收、理解、接受
3xx:重新導向--要完成請求必須進行更進一步的操作
4xx:用戶端錯誤--請求有語法錯誤或請求無法實現
5xx:伺服器端錯誤--伺服器未能實現合法的請求
常見狀態碼、狀態原因、說明:
200 OK //用戶端請求成功
400 Bad Request //用戶端請求有語法錯誤,不能被伺服器所理解
401 Unauthorized //請求未經授權,這個狀態碼必須和WWW-Authenticate前序域一起使用
403 Forbidden //伺服器收到請求,但是拒絕提供服務
404 Not Found //請求資源不存在,eg:輸入了錯誤的URL
500 Internal Server Error //伺服器發生不可預期的錯誤
503 Server Unavailable //伺服器當前不能處理用戶端的請求,一段時間後可能恢複正常
eg:HTTP/1.1 200 OK (CRLF)
3、響應本文就是伺服器返回的資源的內容
訊息前序
HTTP訊息前序包括普通前序、請求前序、響應前序、實體前序。
每一個前序域都是由名字+“:”+空格+值 組成,訊息前序域的名字是大小寫無關的
1、普通前序
在普通前序中,有少數前序域用於所有的請求和響應訊息,但並不用於被傳輸的實體,只用於傳輸的訊息。
eg:
Cache-Control 用於指定緩衝指令,緩衝指令是單向的(響應中出現的緩衝指令在請求中未必會出現),且是獨立的(一個訊息的緩衝指令不會影響另一個訊息處理的緩衝機制),HTTP1.0使用的類似的前序域為Pragma。
請求時的緩衝指令包括:no-cache(用於指示請求或響應訊息不能緩衝)、no-store、max-age、max-stale、min-fresh、only-if-cached;
響應時的緩衝指令包括:public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage.
eg:為了指示IE瀏覽器(用戶端)不要快取頁面面,伺服器端的JSP程式可以編寫如下:response.sehHeader("Cache-Control","no-cache");
//response.setHeader("Pragma","no-cache");作用相當於上述代碼,通常兩者//合用
這句代碼將在發送的響應訊息中設定普通前序域:Cache-Control:no-cache
Date普通前序域表示訊息產生的日期和時間
Connection普通前序域允許發送指定串連的選項。例如指定串連是連續,或者指定“close”選項,通知伺服器,在響應完成後,關閉串連
請求前序允許用戶端向伺服器端傳遞請求的附加資訊以及用戶端自身的資訊。圖一中第一行下面的幾行都是請求訊息前序
常用的請求前序
Accept
Accept請求前序域用於指定用戶端接受哪些類型的資訊。eg:Accept:image/gif,表明用戶端希望接受GIF圖象格式的資源;Accept:text/html,表明用戶端希望接受html文本。
Accept-Charset
Accept-Charset請求前序域用於指定用戶端接受的字元集。eg:Accept-Charset:iso-8859-1,gb2312.如果在請求訊息中沒有設定這個域,預設是任何字元集都可以接受。
Accept-Encoding
Accept-Encoding請求前序域類似於Accept,但是它是用於指定可接受的內容編碼。eg:Accept-Encoding:gzip.deflate.如果請求訊息中沒有設定這個網域服務器假定用戶端對各種內容編碼都可以接受。
Accept-Language
Accept-Language請求前序域類似於Accept,但是它是用於指定一種自然語言。eg:Accept-Language:zh-cn.如果請求訊息中沒有設定這個前序域,伺服器假定用戶端對各種語言都可以接受。
Authorization
Authorization請求前序域主要用於證明用戶端有權查看某個資源。當瀏覽器訪問一個頁面時,如果收到伺服器的響應代碼為401(未授權),可以發送一個包含Authorization請求前序域的請求,要求伺服器對其進行驗證。
Host(發送請求時,該前序域是必需的)
Host請求前序域主要用於指定被請求資源的Internet主機和連接埠號碼,它通常從HTTP URL中提取出來的,eg:
我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器發送的請求訊息中,就會包含Host請求前序域,如下:
Host:www.guet.edu.cn
此處使用預設連接埠號碼80,若指定了連接埠號碼,則變成:Host:www.guet.edu.cn:指定連接埠號碼
User-Agent
我們上網登陸論壇的時候,往往會看到一些歡迎資訊,其中列出了你的作業系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到很神奇,實際上,伺服器應用程式就是從User-Agent這個請求前序域中擷取到這些資訊。User-Agent請求前序域允許用戶端將它的作業系統、瀏覽器和其它屬性告訴伺服器。不過,這個前序域不是必需的,如果我們自己編寫一個瀏覽器,不使用User-Agent請求前序域,那麼伺服器端就無法得知我們的資訊了。
3、響應前序
響應前序允許伺服器傳遞不能放在狀態行中的附加響應資訊,以及關於伺服器的資訊和對Request-URI所標識的資源進行下一步訪問的資訊。
常用的響應前序
Location
Location響應前序域用於重新導向接受者到一個新的位置。Location響應前序域常用在更換網域名稱的時候。
Server
Server響應前序域包含了伺服器用來處理請求的軟體資訊。與User-Agent請求前序域是相對應的。下面是
Server響應前序域的一個例子:
Server:Apache-Coyote/1.1
WWW-Authenticate
WWW-Authenticate響應前序域必須被包含在401(未授權的)響應訊息中,用戶端收到401響應訊息時候,並發送Authorization前序域請求伺服器對其進行驗證時,服務端響應前序就包含該前序域。
eg:WWW-Authenticate:Basic realm="BasicAuth Test!" //可以看出伺服器對請求資源採用的是基本驗證機制。
4、實體前序
請求和響應訊息都可以傳送一個實體。一個實體由實體前序域和實體本文組成,但並不是說實體前序域和實體本文要在一起發送,可以只發送實體前序域。實體前序定義了關於實體本文(eg:有無實體本文)和請求所標識的資源的元資訊。
常用的實體前序
Content-Encoding
Content-Encoding實體前序域被用作媒體類型的修飾符,它的值指示了已經被應用到實體本文的附加內容的編碼,因而要獲得Content-Type前序域中所引用的媒體類型,必須採用相應的解碼機制。Content-Encoding這樣用於記錄文檔的壓縮方法,eg:Content-Encoding:gzip
Content-Language
Content-Language實體前序域描述了資源所用的自然語言。沒有設定該域則認為實體內容將提供給所有的語言閱讀
者。eg:Content-Language:da
Content-Length
Content-Length實體前序域用於指明實體本文的長度,以位元組方式儲存的十進位數字來表示。
Content-Type
Content-Type實體前序域用語指明發送給接收者的實體本文的媒體類型。eg:
Content-Type:text/html;charset=ISO-8859-1
Content-Type:text/html;charset=GB2312
Last-Modified
Last-Modified實體前序域用於指示資源的最後修改日期和時間。
Expires
Expires實體前序域給出響應到期的日期和時間。為了讓Proxy 伺服器或瀏覽器在一段時間以後更新緩衝中(再次訪問曾訪問過的頁面時,直接從緩衝中載入,縮短回應時間和降低伺服器負載)的頁面,我們可以使用Expires實體前序域指定頁面到期的時間。eg:Expires:Thu,15 Sep 2006 16:23:12 GMT
HTTP1.1的用戶端和緩衝必須將其他非法的日期格式(包括0)看作已經到期。eg:為了讓瀏覽器不要快取頁面面,我們也可以利用Expires實體前序域,設定為0,jsp中程式如下:response.setDateHeader("Expires","0");
參考:
http://www.cnblogs.com/li0803/archive/2008/11/03/1324746.html
http://www.blogjava.net/zjusuyong/articles/304788.html
《HTTP協議(RFC2616)中文版》
上一篇:Tomcat學習進階之catalina.bat篇
下一篇:Tomcat學習進階曆程之Socket