標籤:python 爬蟲
說明:和上一個下載百度貼吧圖片差不多,修改了正則,加入了頁碼控制;
此外也加入了輸出格式控制,如果想加入手動設定儲存路徑功能,可以參考之前的百度貼吧爬蟲
#!/usr/bin/env python#! -*- coding: utf-8 -*-#圖片地址範例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"import urllib,urllib2import re#返回網頁原始碼def getHtml(url, page): tempUrl = url + str(page) print tempUrl html = urllib2.urlopen(tempUrl) srcCode = html.read() return srcCodedef getImg(url, start_page, end_page): #對網頁中圖片建立正則 pattern = re.compile(r‘src="(.*?\.gif)".*?style="width:460px"‘) for x in xrange(start_page, end_page+1): srcCode = getHtml(url,x) #圖片完整路徑儲存為list imgSrc = pattern.findall(srcCode) num = 0 for i in imgSrc: urllib.urlretrieve(i,‘P%s0%s.gif‘ %(x ,num)) num += 1 print "正則下載" print i print ‘全部任務完成!‘#----------- 程式的入口處 -----------print u"""程式開始運行#=========================================================# 程式:暴漫爬蟲# 版本:V0.1# 江前雲後# 語言:Python 2.7# 操作:輸入要下載的暴漫gif的頁碼範圍,自動下載所有gif圖#========================================================="""#測試urlmyUrl = ‘http://baozoumanhua.com/gif/hot/page/‘start_page = int(raw_input(u"輸入起始頁\n"))end_page = int(raw_input(u"輸入結束頁\n"))getImg(myUrl, start_page, end_page)
[python][爬蟲]暴漫gif下載