Python爬蟲入門

來源:互聯網
上載者:User

標籤:調用   glob   存取控制   rom   ref   urlopen   php   它的   功能   

一.

from urllib import request

res=request.urlopen(‘https://www.douban.com‘)
data = res.read()
print(data.decode(‘utf-8‘))
通過以上代碼可以擷取到豆瓣網頁源碼。

1.
urllib提供的功能就是利用程式去執行各種HTTP請求。如果要類比瀏覽器完成特定功能,需要把請求偽裝成瀏覽器。偽裝的方法是先監控瀏覽器發出的請求,再根據瀏覽器的要求標頭來偽裝,User-Agent頭就是用來標識瀏覽器的。
2.req=request.urlopen(‘https://www.douban.com‘)

首先我們調用的是request模組裡面的urlopen方法,傳入一個URL,這個網址是豆瓣首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種存取控制協議,urlopen一般接受三個參數,它的參數如下:

urlopen(url, data, timeout)

第一個參數url即為URL(必須傳入),第二個參數data是訪問URL時要傳送的資料(非必須),第三個timeout是設定逾時時間(非必須)

第二三個參數是可以不傳送的,data預設為空白None,timeout預設為 socket._GLOBAL_DEFAULT_TIMEOUT

第一個參數URL是必須要傳送的,在這個例子裡面我們傳送了豆瓣的URL,執行urlopen方法之後,返回一個response對象,返回資訊便儲存在這裡面。

3.

data = res.read()

res對象有一個read方法,可以返回擷取到的網頁內容。如果不通過read()方法而直接print res對象,會列印出該對象的描述,而不是網頁代碼。

Python爬蟲入門

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.