Python爬蟲的步驟和工具

來源:互聯網
上載者:User

標籤:str   形式   urllib   內容   imp   html   www   compile   設定   

#四個步驟

1.查看crawl內容的源碼格式          crawl的內容可以是 url(連結),文字,圖片,視頻

2.請求網頁源碼        (可能要設定)代理,限速,cookie

3.匹配            用Regex匹配

4.儲存資料          檔案操作

 

#兩個基本工具(庫)

1.urllib

2.requests

 

#使用reuests庫的一個例子,抓取可愛圖片

import requests  #匯入庫
import re                   
url =r‘https://www.woyaogexing.com/tupian/keai‘   #連結
response =requests.get(url)                                   #get()函數,得到網頁
response.encoding =‘utf-8‘          #讓源碼中的中文正常顯示
html =response.text             #載入網頁源碼
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘   #Regex
patern =re.compile(strs,re.S)         #封裝成對象,以便多次使用
items =re.findall(patern,html)         #匹配
for i in  items:
    with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #建立檔案,以二進位寫形式‘wb‘
        url =‘https:‘+i
        file.write(requests.get(url).content)    #寫入資料,圖片是位元據

 

Python爬蟲的步驟和工具

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.