java http協議 多線程斷點續傳

來源:互聯網
上載者:User

ref:http://blog.csdn.net/zhuhuiby/article/details/6725951

最近研究了一下關於檔案下載的相關內容,覺得還是寫些東西記下來比較好。起初只是想研究研究,但後來發現寫個可重用性比較高的模組還是很有必要的,我想這也是大多數開發人員的習慣吧。
對於HTTP協議,向伺服器請求某個檔案時,只要發送類似如下的請求即可: 

GET /Path/FileName HTTP/1.0 
Host: www.server.com:80 
Accept: */* 
User-Agent: GeneralDownloadApplication 
Connection: close 

每行用一個“斷行符號換行”分隔,末尾再追加一個“斷行符號換行”作為整個請求的結束。 

第一行中的GET是HTTP協議支援的方法之一,方法名是大小寫敏感的,HTTP協議還支援OPTIONS、HAED、POST、PUT、DELETE、TRACE、CONNECT等方法,而GET和HEAD這兩個方法通常被認為是“安全的”,也就是說任何實現了HTTP協議的伺服器程式都會實現這兩個方法。對於檔案下載功能,GET足矣。GET後面是一個空格,其後緊跟的是要下載的檔案從WEB伺服器根開始的絕對路徑。該路徑後又有一個空格,然後是協議名稱及協議版本。

除第一行以外,其餘行都是HTTP頭的欄位部分。Host欄位表示主機名稱和連接埠號碼,如果連接埠號碼是預設的80則可以不寫。Accept欄位中的*/*表示接收任何類型的資料。User-Agent表示使用者代理程式,這個欄位可有可無,但強烈建議加上,因為它是伺服器統計、追蹤以及識別用戶端的依據。Connection欄位中的close表示使用非持久串連。

關於HTTP協議更多的細節可以參考RFC2616(HTTP 1.1)。因為我只是想通過HTTP協議實現檔案下載,所以也只看了一部分,並沒有看全。 

如果伺服器成功收到該請求,並且沒有出現任何錯誤,則會返回類似下面的資料: 

HTTP/1.0 200 OK 
Content-Length: 13057672 
Content-Type: application/octet-stream 
Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT 
Accept-Ranges: bytes 
ETag: "2f38a6cac7cec51:160c" 
Server: Microsoft-IIS/6.0 
X-Powered-By: ASP.NET 
Date: Wed, 16 Nov 2005 01:57:54 GMT 
Connection: close 

不用逐一解釋,很多東西一看幾乎就明白了,只說我們大家都關心內容吧。 

第一行是協議名稱及版本號碼,空格後面會有一個三位元的數字,是HTTP協議的響應狀態代碼,200表示成功,OK是對狀態代碼的簡短文字描述。狀態代碼共有5類: 
1xx屬於通知類; 
2xx屬於成功類; 
3xx屬於重新導向類; 
4xx屬於用戶端錯誤類; 
5xx屬於服務端錯誤類。 
對於狀態代碼,相信大家對404應該很熟悉,如果向一個伺服器請求一個不存在的檔案,就會得到該錯誤,通常瀏覽器也會顯示類似“HTTP 404 - 未找到檔案”這樣的錯誤。Content-Length欄位是一個比較重要的欄位,它標明了伺服器返回資料的長度,這個長度是不包含HTTP頭長度的。換句話說,我們的請求中並沒有Range欄位(後面會說到),表示我們請求的是整個檔案,所以Content-Length就是整個檔案的大小。其餘各欄位是一些關於檔案和伺服器的屬性資訊。

這段返回資料同樣是以最後一行的結束標誌(斷行符號換行)和一個額外的斷行符號換行作為結束,即“\r\n\r\n”。而“\r\n\r\n”後面緊接的就是檔案的內容了,這樣我們就可以找到“\r\n\r\n”,並從它後面的第一個位元組開始,源源不斷的讀取,再寫到檔案中了。

以上就是通過HTTP協議實現檔案下載的全過程。但還不能實現斷點續傳,而實際上斷點續傳的實現非常簡單,只要在請求中加一個Range欄位就可以了。 

假如一個檔案有1000個位元組,那麼其範圍就是0-999,則: 

Range: bytes=500-      表示讀取該檔案的500-999位元組,共500位元組。 
Range: bytes=500-599   表示讀取該檔案的500-599位元組,共100位元組。 
Range還有其它幾種寫法,但上面這兩種是最常用的,對於斷點續傳也足矣了。如果HTTP請求中包含Range欄位,那麼伺服器會返回206(Partial Content),同時HTTP頭中也會有一個相應的Content-Range欄位,類似下面的格式:
Content-Range: bytes 500-999/1000 
Content-Range欄位說明伺服器返回了檔案的某個範圍及檔案的總長度。這時Content-Length欄位就不是整個檔案的大小了,而是對應檔案這個範圍的位元組數,這一點一定要注意。

一切好像基本上沒有什麼問題了,本來我也是這麼認為的,但事實並非如此。如果我們請求的檔案的URL是類似http://www.server.com/filename.exe這樣的檔案,則不會有問題。但是很多軟體下載網站的檔案下載連結都是通過程式重新導向的,比如pchome的ACDSee的HTTP下載地址是:

http://download.pchome.net/php/tdownload2.php?sid=5547&url=/multimedia/viewer/acdc31sr1b051007.exe&svr=1&typ=0

這種地址並沒有直接標識檔案的位置,而是通過程式進行了重新導向。如果向伺服器請求這樣的URL,伺服器就會返回302(Moved Temporarily),意思就是需要重新導向,同時在HTTP頭中會包含一個Location欄位,Location欄位的值就是重新導向後的目的URL。這時就需要斷開當前的串連,而向這個重新導向後的伺服器發請求。

     好了,原理基本上就是這些了。其實裝個Sniffer好好分析一下,很容易就可以分析出來的。不過NetAnts也幫了我一些忙,它的檔案下載日誌對開發人員還是很有協助的。 

annegu做了一個簡單的Http多線程的下載程式,來討論一下多線程並發下載以及斷點續傳的問題。 
這個程式的功能,就是可以分多個線程從目標地址上下載資料,每個線程負責下載一部分,並可以支援斷點續傳和逾時重連。 

下載的方法是download(),它接收兩個參數,分別是要下載的頁面的url和編碼方式。在這個負責下載的方法中,主要分了三個步驟。第一步是用來設定斷點續傳時候的一些資訊的,第二步就是主要的分多線程來下載了,最後是資料的合并。 
1、多線程下載: [java]  view plain copy     public String download(String urlStr, String charset) {           this.charset = charset;           long contentLength = 0;   ①       CountDownLatch latch = new CountDownLatch(threadNum);           long[] startPos = new long[threadNum];           long endPos = 0;              try {               // 從url中獲得下載的檔案格式與名字               this.fileName = urlStr.substring(urlStr.lastIndexOf("/") + 1, urlStr.lastIndexOf("?")>0 ? urlStr.lastIndexOf("?") : urlStr.length());               if("".equalsIgnoreCase(this.fileName)){                   this.fileName = UUID.randomUUID().toString();               }                  this.url = new URL(urlStr);               URLConnection con = url.openConnection();               setHeader(con);               // 得到content的長度               contentLength = con.getContentLength();               // 把context分為threadNum段的話,每段的長度。               this.threadLength = contentLength / threadNum;                              // 第一步,分析已下載的臨時檔案,設定斷點,如果是新的下載任務,則建立目標檔案。在第4點中說明。               startPos = setThreadBreakpoint(fileDir, fileName, contentLength, startPos);                  //第二步,分多個線程下載檔案               ExecutorService exec = Executors.newCachedThreadPool();               for (int i = 0; i < threadNum; i++) {                   // 建立子線程來負責下載資料,每段資料的起始位置為(threadLength * i + 已下載長度)                   startPos[i] += threadLength * i;                      /*設定子線程的終止位置,非最後一個線程即為(threadLength * (i + 1) - 1)                  最後一個線程的終止位置即為下載內容的長度*/                   if (i == threadNum - 1) {                       endPos = contentLength;                   } else {                       endPos = threadLength * (i + 1) - 1;                   }  

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.