標籤:python 爬蟲 下載百度圖庫 美女壁紙
總算有時間動手用所學的python知識編寫一個簡單的網路爬蟲了,這個例子主要實現用python爬蟲從百度圖庫中下載美女的圖片,並儲存在本地,閑話少說,直接貼出相應的代碼如下:
-------------------------------------------------------------------------------------------
#coding=utf-8# 匯入urllib和re模組 import urllibimport re# 定義擷取百度圖庫URL的類; class GetHtml: def __init__(self,url): self.url = url def getHtml(self): page = urllib.urlopen(self.url) html = page.read() return html # 定義處理GetHtml類getHtml傳回值(百度圖庫中美女的圖片的連結地址)的類;# 該類主要實現圖片連結地址的提取和相應圖片的下載(下載後的圖片直接儲存在本地); class GetImg: def __init__(self,html): self.html = html def getImg(self): reg = r‘"thumbLargeUrl" : "(.+?\.jpg)"‘ imgre = re.compile(reg,re.S|re.M) imglist = re.findall(imgre,self.html) # print imglist x = 1 for imgurl in imglist: urllib.urlretrieve(imgurl,‘%s.jpg‘ % x) y = x+1 print ‘第%s張圖片下載完成,正在下載第%s張,請稍後……‘ %(x,y) x+=1 x-=1 print ‘--------本次下載完成,共下載圖片%s張---------‘ %x# 定義程式的主入口 if __name__== ‘__main__‘: url = "http://image.baidu.com/channel?c=%E7%BE%8E%E5%A5%B3#%E7%BE%8E%E5%A5%B3" test = GetHtml(url) p = test.getHtml() m = GetImg(p) m.getImg()
本文出自 “簡單新生活” 部落格,請務必保留此出處http://857768.blog.51cto.com/847768/1641193
使用python編寫簡單網路爬蟲(一)