chrome瀏覽器爬蟲崩潰,怎麼辦?python + selenium + chrome + headless模式__python

來源:互聯網
上載者:User
chrome瀏覽器爬蟲崩潰,怎麼辦。python + selenium + chrome + headless模式 1. 背景

在使用selenium + chrome瀏覽器渲染模式爬取資料時,如果並發任務過多,或者爬蟲的已耗用時間很長,那麼很容易出現瀏覽器崩潰的現象,如下:

這一般是資源消耗過大造成的(據說chrome瀏覽器有記憶體流失的情況)。那如何解決這個問題呢。 這種情況下,我們首先就會想到使用無介面的瀏覽器PhantomJS,但是PhantomJS現在年久失修,後繼無人,對很多新的特性支援並不夠好。不過好在Google今年在chrome中增加了一項新的特性: Headless mode ,這樣我們就可以使用無介面的chrome來爬取資料了,佔用資源更少,速度更快。而且可喜的是,google的團隊承諾會一直維護它… 2. 環境 系統:win7 MongoDB 3.4.6 python 3.6.1 IDE:pycharm 安裝過chrome瀏覽器(63.0.3239.132 (正式版本) 32 位) selenium 3.7.0

配置好chromedriver v2.34

特別說明:

因為Headless mode 是新推出的特性,只有進階的版本才能使用,並不向前相容,所以對chrome瀏覽器和chromedriver的版本有要求: 1. 對chrome瀏覽器來說:    linux,unix系統需要 chrome瀏覽器 >= 59    Windows系統需要 chrome瀏覽器 >= 602. chromeDriver版本與chrome瀏覽器匹配:   這個部分參考文章:http://blog.csdn.net/zwq912318834/article/details/78550666
3. 代碼
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.common.keys import Keyschrome_options = webdriver.ChromeOptions()# 使用headless無介面瀏覽器模式chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')# 啟動瀏覽器,擷取網頁原始碼browser = webdriver.Chrome(chrome_options=chrome_options)mainUrl = "https://www.taobao.com/"browser.get(mainUrl)print(f"browser text = {browser.page_source}")browser.quit()
可以看到已經沒有瀏覽器介面了。 一般我們開發的順序是:1. 首先拿掉這個headless參數,在瀏覽器介面進行開發; 2. 開發完成穩定之後,加入headless參數,進行測試,觀察是否穩定; 3. 如果穩定,再進行部署。
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.