[python爬蟲] Selenium常見元素定位方法和操作的學習介紹

來源:互聯網
上載者:User

標籤:res   tle   tor   casperjs   ant   art   drive   常用   文本   

這篇文章主要Selenium+Python自動化的測試或爬蟲中的常見定位方法、滑鼠操作、鍵盤操作介紹,希望該篇基礎性文章對你有所協助,如果有錯誤或不足之處,請海涵~
        前文目錄:
        [Python爬蟲] 在Windows下安裝PhantomJS和CasperJS及入門介紹(上)
        [Python爬蟲] 在Windows下安裝PIP+Phantomjs+Selenium
        [Python爬蟲] Selenium自動訪問Firefox和Chrome並實現搜尋
        [Python爬蟲] Selenium實現自動登入163郵箱和Locating Elements介紹
        [Python爬蟲] Selenium+Phantomjs動態擷取CSDN下載資源資訊和評論

一. 定位元素方法
        官網地址:http://selenium-python.readthedocs.org/locating-elements.html
        這裡有各種策略用於定位網頁中的元素(locate elements),你可以選擇最適合的方案,Selenium提供了一下方法來定義一個頁面中的元素:
  • find_element_by_id
  • find_element_by_name
  • find_element_by_xpath
  • find_element_by_link_text
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_class_name
  • find_element_by_css_selector

        下面是尋找多個元素(這些方法將返回一個列表):

  • find_elements_by_name
  • find_elements_by_xpath
  • find_elements_by_link_text
  • find_elements_by_partial_link_text
  • find_elements_by_tag_name
  • find_elements_by_class_name
  • find_elements_by_css_selector

        除了上面給出的公用方法,這裡也有兩個在頁面對象定位器有用的私人方法。這兩個私人方法是find_element和find_elements。
        常用方法是通過xpath相對路徑進行定位,同時CSS也是比較好的方法。舉例:

[html] view plain copy 
  1. <html>  
  2.  <body>  
  3.   <form id="loginForm">  
  4.    <input name="username" type="text" />  
  5.    <input name="password" type="password" />  
  6.    <input name="continue" type="submit" value="Login" />  
  7.    <input name="continue" type="button" value="Clear" />  
  8.   </form>  
  9. </body>  
  10. <html>  

        定位username元素的方法如下:

[python] view plain copy 
  1. username = driver.find_element_by_xpath("//form[input/@name=‘username‘]")  
  2. username = driver.find_element_by_xpath("//form[@id=‘loginForm‘]/input[1]")  
  3. username = driver.find_element_by_xpath("//input[@name=‘username‘]")  

        [1] 第一個form元素通過一個input子項目,name屬性和值為username實現
        [2] 通過id=loginForm值的form元素找到第一個input子項目
        [3] 屬性名稱為name且值為username的第一個input元素

 

二. 操作元素方法

        在講述完定位對象(locate elements)之後我們需要對該已定位對象進行操作,通常所有的操作與頁面互動都將通過WebElement介面,常見的操作元素方法如下:

  • clear 清除元素的內容
  • send_keys 類比按鍵輸入
  • click 點擊元素
  • submit 提交表單

        舉例自動訪問FireFox瀏覽器自動登入163郵箱。

 

[python] view plain copy 
  1. from selenium import webdriver    
  2. from selenium.webdriver.common.keys import Keys    
  3. import time  
  4.   
  5. # Login 163 email  
  6. driver = webdriver.Firefox()    
  7. driver.get("http://mail.163.com/")  
  8.   
  9. elem_user = driver.find_element_by_name("username")  
  10. elem_user.clear  
  11. elem_user.send_keys("15201615157")    
  12. elem_pwd = driver.find_element_by_name("password")  
  13. elem_pwd.clear  
  14. elem_pwd.send_keys("******")    
  15. elem_pwd.send_keys(Keys.RETURN)  
  16. #driver.find_element_by_id("loginBtn").click()  
  17. #driver.find_element_by_id("loginBtn").submit()  
  18. time.sleep(5)    
  19. assert "baidu" in driver.title    
  20. driver.close()    
  21. driver.quit()    

        首先通過name定位使用者名稱和密碼,再調用方法clear()清除輸入框預設內容,如“請輸入密碼”等提示,通過send_keys("**")輸入正確的使用者名稱和密碼,最後通過click()點擊登入按鈕或send_keys(Keys.RETURN)相當於斷行符號登入,submit()提交表單。
        PS:如果需要輸入中文,防止編碼錯誤使用send_keys(u"中文使用者名稱")。

 

 

三. WebElement介面擷取值

        通過WebElement介面可以擷取常用的值,這些值同樣非常重要。

  • size 擷取元素的尺寸
  • text 擷取元素的文本
  • get_attribute(name) 擷取屬性值
  • location 擷取元素座標,先找到要擷取的元素,再調用該方法
  • page_source 返回頁面源碼
  • driver.title 返回頁面標題
  • current_url 擷取當前頁面的URL
  • is_displayed() 設定該元素是否可見
  • is_enabled() 判斷元素是否被使用
  • is_selected() 判斷元素是否被選中
  • tag_name 返回元素的tagName

        舉例代碼如下:

 

[python] view plain copy 
  1. from selenium import webdriver    
  2. from selenium.webdriver.common.keys import Keys    
  3. import time  
  4.   
  5. driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")     
  6. driver.get("http://www.baidu.com/")  
  7.   
  8. size = driver.find_element_by_name("wd").size  
  9. print size  
  10. #尺寸: {‘width‘: 500, ‘height‘: 22}  
  11.   
  12. news = driver.find_element_by_xpath("//div[@id=‘u1‘]/a[1]").text  
  13. print news  
  14. #文本: 新聞  
  15.   
  16. href = driver.find_element_by_xpath("//div[@id=‘u1‘]/a[2]").get_attribute(‘href‘)  
  17. name = driver.find_element_by_xpath("//div[@id=‘u1‘]/a[2]").get_attribute(‘name‘)  
  18. print href,name  
  19. #屬性值: http://www.hao123.com/ tj_trhao123  
  20.   
  21. location = driver.find_element_by_xpath("//div[@id=‘u1‘]/a[3]").location  
  22. print location  
  23. #座標: {‘y‘: 19, ‘x‘: 498}  
  24.   
  25. print driver.current_url  
  26. #當前連結: https://www.baidu.com/  
  27. print driver.title  
  28. #標題: 百度一下, 你就知道  
  29.   
  30. result = location = driver.find_element_by_id("su").is_displayed()  
  31. print result  
  32. #是否可見: True  

        其中圖片解釋如所示。

 



 

四. 滑鼠操作

        在現實的自動化測試中關於滑鼠的操作不僅僅是click()單擊操作,還有很多包含在ActionChains類中的操作。如下:

  • context_click(elem) 右擊滑鼠點擊元素elem,另存新檔等行為
  • double_click(elem) 雙擊滑鼠點擊元素elem,地圖web可實現放大功能
  • drag_and_drop(source,target) 拖動滑鼠,源元素按下左鍵移動至目標元素釋放
  • move_to_element(elem) 滑鼠移動到一個元素上
  • click_and_hold(elem) 按下滑鼠左鍵在一個元素上
  • perform() 在通過調用該函數執行ActionChains中儲存行為

        舉例如所示,擷取通過滑鼠右鍵另存新檔百度圖片logo。代碼:

[python] view plain copy 
  1. import time  
  2. from selenium import webdriver  
  3. from selenium.webdriver.common.keys import Keys  
  4. from selenium.webdriver.common.action_chains import ActionChains  
  5.   
  6. driver = webdriver.Firefox()  
  7. driver.get("http://www.baidu.com")  
  8.   
  9. #滑鼠移動至圖片上 右鍵儲存圖片  
  10. elem_pic = driver.find_element_by_xpath("//div[@id=‘lg‘]/img")  
  11. print elem_pic.get_attribute("src")  
  12. action = ActionChains(driver).move_to_element(elem_pic)  
  13. action.context_click(elem_pic)  
  14.   
  15. #重點:當右鍵滑鼠點擊鍵盤游標向下則移動至右鍵菜單第一個選項  
  16. action.send_keys(Keys.ARROW_DOWN)  
  17. time.sleep(3)  
  18. action.send_keys(‘v‘) #另存新檔  
  19. action.perform()  
  20.   
  21. #擷取另存新檔對話方塊(失敗)  
  22. alert.switch_to_alert()  
  23. alert.accept()  

        效果如所示,通過xpath定位到圖片位置並右擊滑鼠,在彈出的菜單中選擇“另存新檔圖片”。但是如何點擊“另存新檔對話方塊”的“儲存”按鈕是個痛點,目前剛學習階段,境界沒到無法解決。原因:
        WebDriver cannot directly interact with dialog windows this is because dialog windows are the domain of the operating system and not the webpage.

  
        該部分推薦參考資料:
            selenium 右鍵下載圖片,結合sikuli - tobecrazy
            Selenium WebDriver 中滑鼠和鍵盤事件分析及擴充
            Selenium Windows Save/Open Open Dialouge - StackOver
            書籍《selenium2 python自動化測試》 蟲師

 

五. 鍵盤操作

        參考:http://selenium-python.readthedocs.org/api.html
        前面講述了滑鼠操作,現在講述鍵盤操作。在webdriver的Keys類中提供了鍵盤所有的按鍵動作,當然也包括一些常見的按鍵組合操作如Ctrl+A(全選)、Ctrl+C(複製)、Ctrl+V(粘貼)。更多鍵參考官方文檔對應的編碼。

  • send_keys(Keys.ENTER) 按下斷行符號鍵
  • send_keys(Keys.TAB) 按下Tab製表鍵
  • send_keys(Keys.SPACE) 按下空格鍵space
  • send_keys(Kyes.ESCAPE) 按下回退鍵Esc
  • send_keys(Keys.BACK_SPACE) 按下刪除鍵BackSpace
  • send_keys(Keys.SHIFT) 按下shift鍵
  • send_keys(Keys.CONTROL) 按下Ctrl鍵
  • send_keys(Keys.ARROW_DOWN) 按下滑鼠游標向下按鍵
  • send_keys(Keys.CONTROL,‘a‘) 按鍵組合全選Ctrl+A
  • send_keys(Keys.CONTROL,‘c‘) 按鍵組合複製Ctrl+C
  • send_keys(Keys.CONTROL,‘x‘) 按鍵組合剪下Ctrl+X
  • send_keys(Keys.CONTROL,‘v‘) 按鍵組合粘貼Ctrl+V

        這裡使用的例子參考蟲師的書籍《selenium2 python自動化測試》,推薦該書給大家。代碼還是非常有意思的,大家自己去感受下吧~

[python] view plain copy 
    1. #coding=utf-8  
    2. import time  
    3. from selenium import webdriver  
    4. from selenium.webdriver.common.keys import Keys  
    5.   
    6. driver = webdriver.Firefox()  
    7. driver.get("http://www.baidu.com")  
    8.   
    9. #輸入框輸入內容  
    10. elem = driver.find_element_by_id("kw")  
    11. elem.send_keys("Eastmount CSDN")  
    12. time.sleep(3)  
    13.   
    14. #刪除一個字元CSDN 回退鍵  
    15. elem.send_keys(Keys.BACK_SPACE)  
    16. elem.send_keys(Keys.BACK_SPACE)  
    17. elem.send_keys(Keys.BACK_SPACE)  
    18. elem.send_keys(Keys.BACK_SPACE)  
    19. time.sleep(3)  
    20.   
    21. #輸入空格+"部落格"  
    22. elem.send_keys(Keys.SPACE)  
    23. elem.send_keys(u"部落格")  
    24. time.sleep(3)  
    25.   
    26. #ctrl+a 全選輸入框內容  
    27. elem.send_keys(Keys.CONTROL,‘a‘)  
    28. time.sleep(3)  
    29.   
    30. #ctrl+x 剪下輸入框內容  
    31. elem.send_keys(Keys.CONTROL,‘x‘)  
    32. time.sleep(3)  
    33.   
    34. #輸入框重新輸入搜尋  
    35. elem.send_keys(Keys.CONTROL,‘v‘)  
    36. time.sleep(3)  
    37.   
    38. #通過斷行符號鍵替代點擊操作  
    39. driver.find_element_by_id("su").send_keys(Keys.ENTER)  
    40. time.sleep(3)  
    41.   
    42. driver.quit()  

[python爬蟲] Selenium常見元素定位方法和操作的學習介紹

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.