selenium識別登入驗證碼---基於python實現

來源:互聯網
上載者:User

標籤:ati   michael   環境   screen   time   基於   ast   driver   image   

本文主要是通過PIL+pytesseract+Tesseract-OCR實現驗證碼的識別

其中PIL為Python Imaging Library,已經是Python平台事實上的影像處理標準庫了。PIL功能非常強大,但API卻非常簡單易用。

PIL第三方庫安裝 pip install PIL

Image 類是 PIL 庫中一個非常重要的類,通過這個類來建立執行個體可以有直接載入影像檔,讀取處理過的映像和通過抓取的方法得到的映像這三種方法。

常見的映像操作:

import Image # 開啟一個jpg影像檔

im = Image.open(‘/Users/michael/test.jpg‘)

# 獲得映像尺寸: w, h = im.size 

# 把縮放後的映像用jpeg格式儲存: im.save(‘/Users/michael/thumbnail.jpg‘, ‘jpeg‘)

映像的增強(PIL庫ImageEnhance類詳解)

python中PIL模組中有一個叫做ImageEnhance的類,該類專門用於映像的增強處理,不僅可以增強(或減弱)映像的亮度、對比、色度,還可以用於增強映像的銳度。

 

具體見下面的例子:

 

[python]
  1. #-*- coding: UTF-8 -*-     
  2. from PIL import Image  
  3. from PIL import ImageEnhance  
  4. #原始映像  
  5. image = Image.open(‘lena.jpg‘)  
  6. image.show()  
  7. #亮度增強  
  8. enh_bri = ImageEnhance.Brightness(image)  
  9. brightness = 1.5  
  10. image_brightened = enh_bri.enhance(brightness)  
  11. image_brightened.show()  
  12. #色度增強  
  13. enh_col = ImageEnhance.Color(image)  
  14. color = 1.5  
  15. image_colored = enh_col.enhance(color)  
  16. image_colored.show()  
  17. #對比增強  
  18. enh_con = ImageEnhance.Contrast(image)  
  19. contrast = 1.5  
  20. image_contrasted = enh_con.enhance(contrast)  
  21. image_contrasted.show()  
  22. #銳度增強  
  23. enh_sha = ImageEnhance.Sharpness(image)  
  24. sharpness = 3.0  
  25. image_sharped = enh_sha.enhance(sharpness)  
  26. image_sharped.show()  

     圖片增強能夠更好的識別較為複雜的驗證碼

Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,後來貢獻給了開源軟體業,後經由Google進行改進,消除bug,最佳化,重新發布。目前的版本為3.02

Tesseract-OCR :http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

下載完後進行安裝,預設情況下安裝程式會給你配置系統內容變數,以指向安裝目錄(之後可以通過DOS介面在任意目錄運行tesseract)。安裝完成後目錄如下:


 

附錄:

tessdata 目錄存放的是語言字型檔檔案,和在命令列介面中可能用到的參數所對應的檔案. 這個安裝程式預設包含了英文字型檔。

如果想能識別中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下載對應的語言的字型檔檔案.一般google訪問不了,請到這裡下載即可,

簡體中文字型檔檔案為:http://download.csdn.net/detail/wanghui2008123/7621567下載完成後解壓,然後將該檔案剪下到tessdata目錄下去就可以了。

詳解可參見:http://www.cnblogs.com/wzben/p/5930538.html

Tesseract並不能直接在python中使用,需要使用python的封裝類pytesseract

Python-tesseract 是光學字元辨識Tesseract OCR引擎的Python封裝類。能夠讀取任何常規的圖片檔案(JPG, GIF ,PNG , TIFF等)並解碼成可讀的語言。在OCR處理期間不會建立任何臨檔案

總結起來識別的步驟如下:

1. 安裝PIL  2. 安裝Tesseract  3.安裝pytesseract

下面以執行個體說話吧!

# coding:utf-8from selenium import webdriverfrom time import sleepimport unittestfrom PIL import Imagefrom PIL import ImageEnhanceimport pytesseractdriver=webdriver.Firefox()url="https://passport.baidu.com/?getpassindex"driver.get(url)driver.maximize_window()driver.save_screenshot(r"E:\aa.png")  #截取當前網頁,該網頁有我們需要的驗證碼imgelement = driver.find_element_by_xpath(".//*[@id=‘forgotsel‘]/div/div[3]/img")#imgelement = driver.find_element_by_id("code")  #定位驗證碼location = imgelement.location  #擷取驗證碼x,y軸座標size=imgelement.size  #擷取驗證碼的長寬coderange=(int(location[‘x‘]),int(location[‘y‘]),int(location[‘x‘]+size[‘width‘]),           int(location[‘y‘]+size[‘height‘])) #寫成我們需要截取的位置座標i=Image.open(r"E:\aa.png") #開啟frame4=i.crop(coderange)  #使用Image的crop函數,從中再次截取我們需要的地區frame4.save(r"E:\frame4.png")i2=Image.open(r"E:\frame4.png")imgry = i2.convert(‘L‘)   #映像加強,二值化,PIL中有九種不同模式。分別為1,L,P,RGB,RGBA,CMYK,YCbCr,I,F。L為灰階映像sharpness =ImageEnhance.Contrast(imgry)#對比增強i3 = sharpness.enhance(3.0)  #3.0為映像的飽和度i3.save("E:\\image_code.png")i4=Image.open("E:\\image_code.png")text=pytesseract.image_to_string(i2).strip() #使用image_to_string識別驗證碼print text

 

selenium識別登入驗證碼---基於python實現

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.