百度lee給出 http返回碼的含義和建議

來源:互聯網
上載者:User

  百度爬蟲在進行抓取和處理時,是根據http協議規範來設定相應的邏輯的,所以請站長們也盡量參考http協議中關於返回碼的含義的定義來進行設定。

  百度spider對常用的http返回碼的處理邏輯是這樣的:

  1、404

  404返回碼的含義是“NOT FOUND”,百度會認為網頁已經失效,那麼通常會從搜尋結果中刪除,並且短期內spider再次發現這條url也不會抓取。

  2、503

  503返回碼的含義是“Service Unavailable”,百度會認為該網頁臨時不可訪問,通常網站臨時關閉,頻寬有限等會產生這種情況。對於網頁返回503,百度spider不會把這條url直接刪除,短期內會再訪問。屆時如果網頁已恢複,則正常抓取;如果繼續返回503,短期內還會反覆訪問幾次。但是如果網頁長期返回503,那麼這個url仍會被百度認為是失效連結,從搜尋結果中刪除。

  3、403

  403返回碼的含義是“Forbidden”,百度會認為網頁當前禁止訪問。對於這種情況,如果是新發現的url,百度spider暫不會抓取,短期內會再次檢查;如果是百度已收錄url,當前也不會直接刪除,短期內同樣會再訪問。屆時如果網頁允許訪問,則正常抓取;如果仍不允許訪問,短期內還會反覆訪問幾次。但是如果網頁長期返回403,百度也會認為是失效連結,從搜尋結果中刪除。

  4、301

  301返回碼的含義是“Moved Permanently”,百度會認為網頁當前跳轉至新url。當遇到網站遷移,網域名稱更換、網站改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度spider現在對301跳轉的響應周期較長,但我們還是推薦大家這麼做。

  我們的建議

  1、如果網站臨時關閉,當網頁不能開啟時,不要立即返回404,建議使用503狀態。503可以告知百度spider該頁面臨時不可訪問,請過段時間再重試。

  2、如果百度spider對您的網站抓取壓力過大,請盡量不要使用404,同樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個連結,如果那個時間網站空閑,那它就會被成功抓取了。

  3、有一些網站希望百度只收錄部分內容,例如審核後的內容,累積一段時間的新使用者頁等等。在這種情況,建議新發內容暫時返回403,等審核或做好處理之後,再返回正常狀態的返回碼。

  4、網站遷移,或網域名稱更換時,請使用301返回碼。

  文章整理者:北京seo,文章地址:http://www.pangziseo.com/seo_resources/117.html轉載請保留。



相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。