標籤:output org 詳解 cap 目前時間 永久 puts 優勢 機器
本文根據RFC2616(HTTP/1.1規範),參考
http://www.w3.org/Protocols/rfc2068/rfc2068
http://www.w3.org/Protocols/rfc2616/rfc2616
http://www.ietf.org/rfc/rfc3229.txt
通常HTTP訊息包括客戶機向伺服器的請求訊息和伺服器向客戶機的響應訊息。這兩種類型的訊息由一個起始行,一個或者多個頭域,一個只是頭域結束的空行和可 選的訊息體組成。HTTP的頭域包括通用頭,要求標頭,回應標頭和實體頭四個部分。每個頭域由一個網域名稱,冒號(:)和域值三部分組成。網域名稱是大小寫無關的,域 值前可以添加任何數量的空格符,頭域可以被擴充為多行,在每行開始處,使用至少一個空格或定位字元。
通用頭域 (通用首部)
通用頭域包含請求和響應訊息都支援的頭域,提供了與報文相關的最基本的資訊,通用頭域包含
Connection 允許用戶端和伺服器指定與請求/響應串連有關的選項
Date 提供日期和時間標誌,說明報文是什麼時間建立的
MIME-Version 給出發送端使用的MIME版本
Trailer 如果報文採用了分塊傳輸編碼(chunked transfer encoding) 方式,就可以用這個首部列出位於報文拖掛(trailer)部分的首部集合
Transfer-Encoding 告知接收端為了保證報文的可靠傳輸,對報文採用了什麼編碼方式
Upgrade 給出了發送端可能想要"升級"使用的新版本和協議
Via 顯示了報文經過的中間節點(代理,網嘎un)
對通用頭域的擴充要求通訊雙方都支援此擴 展,如果存在不支援的通用頭域,一般將會作為實體頭域處理。下面簡單介紹幾個在UPnP訊息中使用的通用頭域。
Cache-Control頭域
Cache -Control指定請求和響應遵循的緩衝機制。在請求訊息或響應訊息中設定 Cache-Control並不會修改另一個訊息處理過程中的緩衝處理過程。請求時的緩衝指令包括no-cache、no-store、max-age、 max-stale、min-fresh、only-if-cached,響應訊息中的指令包括public、private、no-cache、no- store、no-transform、must-revalidate、proxy-revalidate、max-age。各個訊息中的指令含義如 下:
Public指示響應可被任何緩衝區緩衝。
Private指示對於單個使用者的整個或部分響應訊息,不能被共用快取處理。這允許伺服器僅僅描述當使用者的部分響應訊息,此響應訊息對於其他使用者的請求無效。
no-cache指示請求或響應訊息不能緩衝
no-store用於防止重要的資訊被無意的發布。在請求訊息中發送將使得請求和響應訊息都不使用緩衝。
max-age指示客戶機可以接收生存期不大於指定時間(以秒為單位)的響應。
min-fresh指示客戶機可以接收回應時間小於目前時間加上指定時間的響應。
max-stale指示客戶機可以接收超出逾時期間的響應訊息。如果指定max-stale訊息的值,那麼客戶機可以接收超出逾時期指定值之內的響應訊息。
Date頭域
Date頭域表示訊息發送的時間,時間的描述格式由rfc822定義。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的時間表示世界標準時,換算成本地時間,需要知道使用者所在的時區。
Pragma頭域
Pragma頭域用來包含實現特定的指令,最常用的是Pragma:no-cache。在HTTP/1.1協議中,它的含義和Cache- Control:no-cache相同。
請求訊息
請求訊息的第一行為下面的格式:
MethodSPRequest-URISPHTTP-VersionCRLFMethod 表示對於Request-URI完成的方法,這個欄位是大小寫敏感的,包括OPTIONS、GET、HEAD、POST、PUT、DELETE、 TRACE。方法GET和HEAD應該被所有的通用WEB伺服器支援,其他所有方法的實現是可選的。GET方法取回由Request-URI標識的資訊。 HEAD方法也是取回由Request-URI標識的資訊,只是可以在響應時,不返回訊息體。POST方法可以請求伺服器接收包含在請求中的實體資訊,可 以用於提交表單,向新聞群組、BBS、郵件群組和資料庫發送訊息。
SP表示空格。Request-URI遵循URI格式,在此欄位為星 號(*)時,說明請求並不用於某個特定的資源地址,而是用於伺服器本身。HTTP- Version表示支援的HTTP版本,例如為HTTP/1.1。CRLF表示換行斷行符號符。要求標頭域允許用戶端向伺服器傳遞關於請求或者關於客戶機的附加 資訊。要求標頭域可能包含下欄欄位Accept、Accept-Charset、Accept- Encoding、Accept-Language、Authorization、From、Host、If-Modified-Since、If- Match、If-None-Match、If-Range、If-Range、If-Unmodified-Since、Max-Forwards、 Proxy-Authorization、Range、Referer、User-Agent。對要求標頭域的擴充要求通訊雙方都支援,如果存在不支援的請 求頭域,一般將會作為實體頭域處理。
典型的請求訊息:
GET http://download.google.com/somedata.exe
Host: download.google.com
Accept:*/*
Pragma: no-cache
Cache-Control: no-cache
Referer: http://download.google.com/
User-Agent:Mozilla/4.04[en](Win95;I;Nav)
Range:bytes=554554-
上例第一行表示HTTP用戶端(可能是瀏覽器、下載程式)通過GET方法獲得指定URL下的檔案。棕色的部分表示要求標頭域的資訊,綠色的部分表示通用頭部分。
Host頭域
Host頭域指定請求資源的Intenet主機和連接埠號碼,必須表示請求url的原始伺服器或網關的位置。HTTP/1.1請求必須包含主機頭域,否則系統會以400狀態代碼返回。
Referer頭域
Referer 頭域允許用戶端指定請求uri的源資源地址,這可以允許伺服器產生回退鏈表,可用來登陸、最佳化cache等。他也允許廢除的或錯誤的串連由於維護的目的被 追蹤。如果請求的uri沒有自己的uri地址,Referer不能被發送。如果指定的是部分uri地址,則此地址應該是一個相對位址。
Range頭域
Range頭域可以請求實體的一個或者多個子範圍。例如,
表示頭500個位元組:bytes=0-499
表示第二個500位元組:bytes=500-999
表示最後500個位元組:bytes=-500
表示500位元組以後的範圍:bytes=500-
第一個和最後一個位元組:bytes=0-0,-1
同時指定幾個範圍:bytes=500-600,601-999
但是伺服器可以忽略此要求標頭,如果無條件GET包含Range要求標頭,響應會以狀態代碼206(PartialContent)返回而不是以200 (OK)。
User-Agent頭域
User-Agent頭域的內容包含發出請求的使用者資訊。
響應訊息
響應訊息的第一行為下面的格式:
HTTP-VersionSPStatus-CodeSPReason-PhraseCRLF
HTTP -Version表示支援的HTTP版本,例如為HTTP/1.1。Status- Code是一個三個數位結果代碼。Reason-Phrase給Status-Code提供一個簡單的文本描述。Status-Code主要用於機器自 動識別,Reason-Phrase主要用於協助使用者理解。Status-Code的第一個數字定義響應的類別,後兩個數字沒有分類的作用。第一個數字可 能取5個不同的值:
1xx:資訊響應類,表示接收到請求並且繼續處理
2xx:處理成功響應類,表示動作被成功接收、理解和接受
3xx:重新導向響應類,為了完成指定的動作,必須接受進一步處理
4xx:用戶端錯誤,客戶請求包含語法錯誤或者是不能正確執行
5xx:服務端錯誤,伺服器不能正確執行一個正確的請求
回應標頭域允許伺服器傳遞不能放在狀態行的附加資訊,這些域主要描述伺服器的資訊和 Request-URI進一步的資訊。回應標頭域包含Age、Location、Proxy-Authenticate、Public、Retry- After、Server、Vary、Warning、WWW-Authenticate。對回應標頭域的擴充要求通訊雙方都支援,如果存在不支援的回應標頭 域,一般將會作為實體頭域處理。
典型的響應訊息:
HTTP/1.0200OK
Date:Mon,31Dec200104:25:57GMT
Server:Apache/1.3.14(Unix)
Content-type:text/html
Last-modified:Tue,17Apr200106:46:28GMT
Etag:"a030f020ac7c01:1e9f"
Content-length:39725426
Content-range:bytes554554-40279979/40279980
上例第一行表示HTTP服務端響應一個GET方法。棕色的部分表示回應標頭域的資訊,綠色的部分表示通用頭部分,紅色的部分表示實體頭域的資訊。
Location回應標頭
Location回應標頭用於重新導向接收者到一個新URI地址。
Server回應標頭
Server回應標頭包含處理請求的原始伺服器的軟體資訊。此域能包含多個產品標識和注釋,產品標識一般按照重要性排序。
實體
請求訊息和響應訊息都可以包含實體資訊,實體資訊一般由實體頭域和實體組成。實體頭域包含關於實體的原資訊,實體頭包括Allow、Content- Base、Content-Encoding、Content-Language、 Content-Length、Content-Location、Content-MD5、Content-Range、Content-Type、 Etag、Expires、Last-Modified、extension-header。extension-header允許用戶端定義新的實體 頭,但是這些域可能無法未接受方識別。實體可以是一個經過編碼的位元組流,它的編碼方式由Content-Encoding或Content-Type定 義,它的長度由Content-Length或Content-Range定義。
Content-Type實體頭
Content-Type實體頭用於向接收方指示實體的介質類型,指定HEAD方法送到接收方的實體介質類型,或GET方法發送的請求介質類型 Content-Range實體頭
Content-Range實體頭用於指定整個實體中的一部分的插入位置,他也指示了整個實體的長度。在伺服器向客戶返回一個部分響應,它必須描述響應覆蓋的範圍和整個實體長度。一般格式:
Content-Range:bytes-unitSPfirst-byte-pos-last-byte-pos/entity-legth
例如,傳送頭500個位元組次欄位的形式:Content-Range:bytes0- 499/1234如果一個http訊息包含此節(例如,對範圍請求的響應或對一系列範圍的重疊請求),Content-Range表示傳送的範圍, Content-Length表示實際傳送的位元組數。
Last-modified實體頭
應答頭 |
說明 |
Allow |
伺服器支援哪些要求方法(如GET、POST等)。 |
Content-Encoding |
文 檔的編碼(Encode)方法。只有在解碼之後才可以得到Content-Type頭指定的內容類型。利用gzip壓縮文檔能夠顯著地減少HTML文檔的 下載時間。Java的GZIPOutputStream可以很方便地進行gzip壓縮,但只有Unix上的Netscape和Windows上的IE 4、IE 5才支援它。因此,Servlet應該通過查看Accept-Encoding頭(即request.getHeader("Accept- Encoding"))檢查瀏覽器是否支援gzip,為支援gzip的瀏覽器返回經gzip壓縮的HTML頁面,為其他瀏覽器返回普通頁面。 |
Content-Length |
表 示內容長度。只有當瀏覽器使用持久HTTP串連時才需要這個資料。如果你想要利用持久串連的優勢,可以把輸出文檔寫入 ByteArrayOutputStram,完成後查看其大小,然後把該值放入Content-Length頭,最後通過 byteArrayStream.writeTo(response.getOutputStream()發送內容。 |
Content-Type |
表示後面的文檔屬於什麼MIME類型。Servlet預設為text/plain,但通常需要顯式地指定為text/html。由於經常要設定Content-Type,因此HttpServletResponse提供了一個專用的方法setContentTyep。 |
Date |
當前的GMT時間。你可以用setDateHeader來設定這個頭以避免轉換時間格式的麻煩。 |
Expires |
應該在什麼時候認為文檔已經到期,從而不再緩衝它? |
Last-Modified |
文 檔的最後改動時間。客戶可以通過If-Modified-Since要求標頭提供一個日期,該請求將被視為一個條件GET,只有改動時間遲於指定時間的文檔 才會返回,否則返回一個304(Not Modified)狀態。Last-Modified也可用setDateHeader方法來設定。 |
Location |
表示客戶應當到哪裡去提取文檔。Location通常不是直接設定的,而是通過HttpServletResponse的sendRedirect方法,該方法同時設定狀態碼為302。 |
Refresh |
表示瀏覽器應該在多少時間之後重新整理文檔,以秒計。除了重新整理當前文檔之外,你還可以通過setHeader("Refresh", "5; URL=http://host/path")讓瀏覽器讀取指定的頁面。 注 意這種功能通常是通過設定HTML頁面HEAD區的<META HTTP-EQUIV="Refresh" CONTENT="5;URL=http://host/path">實現,這是因為,自動重新整理或重新導向對於那些不能使用CGI或Servlet的 HTML編寫者十分重要。但是,對於Servlet來說,直接設定Refresh頭更加方便。
注意Refresh的意義是“N秒之後 重新整理本頁面或訪問指定頁面”,而不是“每隔N秒重新整理本頁面或訪問指定頁面”。因此,連續重新整理要求每次都發送一個Refresh頭,而發送204狀態碼則 可以阻止瀏覽器繼續重新整理,不管是使用Refresh頭還是<META HTTP-EQUIV="Refresh" ...>。
注意Refresh頭不屬於HTTP 1.1正式規範的一部分,而是一個擴充,但Netscape和IE都支援它。 |
Server |
伺服器名字。Servlet一般不設定這個值,而是由Web伺服器自己設定。 |
Set-Cookie |
設定和頁面關聯的Cookie。Servlet不應使用response.setHeader("Set-Cookie", ...),而是應使用HttpServletResponse提供的專用方法addCookie。參見下文有關Cookie設定的討論。 |
WWW-Authenticate |
客 戶應該在Authorization頭中提供什麼類型的授權資訊?在包含401(Unauthorized)狀態行的應答中這個頭是必需的。例如, response.setHeader("WWW-Authenticate", "BASIC realm=\"executives\"")。 注意Servlet一般不進行這方面的處理,而是讓Web伺服器的專門機制來控制受密碼保護頁面的訪問(例如.htaccess)。 |
在php中header函數 1. 頁面沒找到 Not Found
header(‘HTTP/1.1 404 Not Found’);
2. 用這個header指令來解決URL重寫產生的404 header
header(‘HTTP/1.1 200 OK’);
3. 訪問受限
header(‘HTTP/1.1 403 Forbidden’);
// The page moved permanently should be used for
// all redrictions, because search engines know
// what‘s going on and can easily update their urls.
4. 頁面被永久刪除,可以告訴搜尋引擎更新它們的urls
header(‘HTTP/1.1 301 Moved Permanently’);
5. 伺服器錯誤
header(‘HTTP/1.1 500 Internal Server Error’);
6. 重新導向到一個新的位置
header(‘Location: .example.org/’);
7. 延遲一段時間後重新導向
header(‘Refresh: 10; url=.example.org/’);
echo ‘You will be redirected in 10 seconds‘;
8. 載入要下載的檔案:
readfile(‘example.zip’);
9. 也可以使用HTML文法來實現延遲
header(‘Content-Transfer-Encoding: binary’);
10. 禁止緩衝當前文檔:
header(‘Cache-Control: no-cache, no-store, max-age=0, must-revalidate’);
header(‘Expires: Mon, 26 Jul 2010 05:00:00 GMT’);
header(‘Pragma: no-cache’);
11. 顯示登入對話方塊,可以用來進行HTTP認證
header(‘HTTP/1.1 401 Unauthorized’);
header(‘WWW-Authenticate: Basic realm=“Top Secret”’);
echo ‘Text that will be displayed if the user hits cancel or ‘;
echo ‘enters wrong login data‘;
12. 設定內容類型:
header(‘Content-Type: text/html; charset=iso-8859-1’);
header(‘Content-Type: text/html; charset=utf-8’);
header(‘Content-Type: text/plain’); // plain text file
header(‘Content-Type: image/jpeg’); // JPG picture
header(‘Content-Type: application/zip’); // ZIP file
header(‘Content-Type: application/pdf’); // PDF file
header(‘Content-Type: audio/mpeg’); // Audio MPEG (MP3,…) file
header(‘Content-Type: application/x-shockwave-flash’); // Flash animatio
python爬蟲:http要求標頭部(header)詳解