標籤:python 爬蟲 抓取圖片 python模組 Regex
利用python抓取網狀圖片的步驟:
1.根據給定的網址擷取網頁原始碼
2.利用Regex把原始碼中的圖片地址過濾出來
3.根據過濾出來的圖片地址下載網狀圖片
import urllib
import re
import os
#urllib,re,os均為Python模組
def gethtml(outline):
page = urllib.urlopen(outline) #抓取網頁內容獲得圖片連結
html = page.read()
return html
def getimg(html): #下載圖片儲存在同目錄下的pictures檔案夾下
reg=r‘src="(.+?\.jpg)" pic_ext‘
imgre=re.compile(reg)
imglist=imgre.findall(html)
if not imglist:
print "not found"
else:
filepath=os.getcwd() +‘\pictures‘
print filepath
if os.path.exists(filepath) is False:
os.mkdir(filepath)
global x
for imgurl in imglist:
temp = filepath + ‘\%s.jpg‘ % x
print imgurl
urllib.urlretrieve(imgurl,temp)
x=x+1
x = 0
fp =file("img_path.txt") #所有網址都放在這個檔案裡
while True:
outline = fp.readline().strip(‘\n‘)
if len(outline)==0:
break
print outline
html=gethtml(outline)
getimg(html)
fp.close()
Python爬蟲抓取圖片,網址從檔案中讀取