標籤:hoc exception pen driver 踩坑 shel css_ bdr 代碼
想做做資訊檢索課設,先寫個爬蟲爬爬微博。
看了一下午微博的api,晚上決定用chromnium。
先通過pip安裝selenium,官方文檔看一眼,
pip install selenium
然後需要安裝瀏覽器的driver,瀏覽器的偵錯模式一樣
通過Choco安裝,powershell一句話
choco install selenium-all-drivers
完畢。然後開始寫代碼
1 from selenium import webdriver 2 from time import sleep 3 4 5 browser = webdriver.Chrome() 6 try: 7 print("open the browser...") 8 browser.get(r‘http://weibo.com‘) 9 print(browser.title)10 except Exception:11 print(‘browser open failed...‘)12 13 sleep(5)14 15 16 print("select href_links...")17 href_li = browser.find_elements_by_css_selector(‘a‘)18 print("total links:",len(href_li))19 print(‘not tag named <a>‘)20 print(" for all the links")21 for href_element in href_li:22 print(href_element.text)
微博首頁有js的動態載入,本來打算遊客登陸的,結果發現直接存取會卡在一個遊客的認證空白頁幾秒鐘,然後針對網頁的分析什麼都是空的, sleep(5) 之後才能找到想要的東西。
幹啥都得等一等,我決定下次用微博的api。。。
python selenium 踩坑