用Python寫的圖片蜘蛛人

來源:互聯網
上載者:User

    原文地址:http://www.darkbull.net/python/bd/%E5%86%99%E4%B8%AA%E5%9B%BE%E7%89%87%E8%9C%98%E8%9B%9B%E7%8E%A9%E7%8E%A9/

    寫了個圖片蜘蛛人玩玩,抓了幾個網頁試試,感覺不不錯。核心的代碼可能20行也不到,簡潔明了,嘻嘻。廢話少說,翠花,上代碼~~

#coding=utf-8import osimport sysimport reimport urllibURL_REG = re.compile(r'(http://[^///]+)', re.I)IMG_REG = re.compile(r'<img[^>]*?src=([/'"])([^/1]*?)/1', re.I)def download(dir, url):'''下載網頁中的圖片@dir 儲存到本地的路徑@url 網頁url'''global URL_REG, IMG_REGm = URL_REG.match(url)if not m: print '[Error]Invalid URL: ', urlreturnhost = m.group(1)if not os.path.isdir(dir):os.mkdir(dir)# 擷取html,提取圖片urlhtml = urllib.urlopen(url).read()imgs = [item[1].lower() for item in IMG_REG.findall(html)]f = lambda path: path if path.startswith('http://') else /host + path if path.startswith('/') else url + '/' + pathimgs = list(set(map(f, imgs)))print '[Info]Find %d images.' % len(imgs)# 下載圖片for idx, img in enumerate(imgs):name = img.split('/')[-1]path = os.path.join(dir, name)try: print '[Info]Download(%d): %s'% (idx + 1, img)urllib.urlretrieve(img, path)except: print "[Error]Cant't download(%d): %s" % (idx + 1, img)def main():if len(sys.argv) != 3:print 'Invalid argument count.'returndir, url = sys.argv[1:]download(dir, url)if __name__ == '__main__':# download('D://Imgs', 'http://www.163.com')main()

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.