哪種代理適合用於Web資料擷取

來源:互聯網
上載者:User

標籤:c   a   http   tar   get   com   

在Web資料擷取中為了避免被伺服器封鎖而通過代理下載的情況很常見。但是,並非所有的代理都適合於Web資料擷取。下面是鯤鵬資料的技術人員給出的說明。

根據HTTP代理的匿名性可以將其分為以下幾種:

  1. 透明代理(Transparent Proxies)目標伺服器能夠檢測到真實的源IP。 目標伺服器根據HTTP要求標頭進行檢測,判斷依據:REMOTE_ADDR = Proxy 伺服器 IPHTTP_VIA = 通常為Proxy 伺服器 IP(或代理軟體名稱,也可能無此頭)HTTP_X_FORWARDED_FOR = 真實源IP(不用代理時,無此頭或值為空白)PS:該類型代理不適合用於Web資料擷取。  2. (普通)匿名代理(Anonymous Proxies)目標伺服器無法檢測到真實的源IP,但能夠檢測到使用了代理。 檢測依據:REMOTE_ADDR = Proxy 伺服器 IPHTTP_VIA = 通常為Proxy 伺服器 IP(或代理軟體名稱,也可能無此頭)HTTP_X_FORWARDED_FOR = Proxy 伺服器 IP(知道你使用了代理,但無法得知真實源IP)PS:該類型代理可以用於Web資料擷取,但有被檢測到的風險。  3. 高匿名代理(High Anonymity Proxies -Elite proxies)目標伺服器無法檢測到你在是使用代理。 檢測依據:REMOTE_ADDR = Proxy 伺服器 IPHTTP_VIA = 值為空白或無此頭HTTP_X_FORWARDED_FOR = 沒數值或無此頭PS:該類型的代理非常適合使用者Web資料擷取。鯤鵬資料的付費代理方案提供的全部為高匿名型別的代理。 另外,不使用代理時發出的頭:REMOTE_ADDR =真實源 IPHTTP_VIA = 值為空白或無此頭HTTP_X_FORWARDED_FOR = 沒數值或無此頭 不過,在檢測嚴格的情況下,即使沒有HTTP_VIA頭和HTTP_X_FORWARDED_FOR頭,如果存在HTTP_PROXY_CONNECTION頭,會被認為在使用普通匿名代理。 我們提供了一個代理類型檢測介面,在瀏覽器中訪問該介面即可顯示出你當前使用的代理類型(如):http://proxies.site-digger.com/proxy-detect/ 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.