Python爬蟲：HTTP協議、Requests庫，pythonrequests

最後更新：2017-06-15 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

HTTP協議：

HTTP（Hypertext Transfer Protocol）：即超文字傳輸通訊協定 (HTTP)。URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個資料資源。

HTTP協議對資源的操作：

Requests庫提供了HTTP所有的基本請求方式。官方介紹：http://www.python-requests.org/en/master

Requests庫的6個主要方法：

Requests庫的異常：

Requests庫的兩個重要對象：Request（請求）、Response（相應）。Request對象支援多種要求方法；Response對象包含伺服器返回的所有資訊，也包含請求的Request資訊。

Response對象的屬性：

其中，r.encoding指：如果header中不存在charset，則認為編碼為ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等於200。

HTTP協議與Requests庫對比：

爬取網頁的通用代碼架構：

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果狀態不是200，引發HTTPError異常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '產生異常'

例如，擷取PMCAFF首頁的資訊：

 1 import requests 2  3 def getHtmlText(url): 4     try: 5         r = requests.get(url,timeout = 30) 6         r.raise_for_status() 7         r.encoding = r.apparent_encoding 8         return r.text 9     except:10         return '產生異常'11 12 if __name__ == '__main__':13     url = 'https://www.pmcaff.com/'14     print(getHtmlText(url))

爬取網頁的通用代碼架構：作業環境：Mac，Python 3.6，PyCharm 2016.2

參考資料：中國大學MOOC課程《Python網路爬蟲與資訊提取》

----- End -----

作者：杜王丹，公眾號：杜王丹，互連網產品經理。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Python爬蟲：HTTP協議、Requests庫，pythonrequests

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support