Python代碼實現圖片文字的識別

來源:互聯網
上載者:User

本篇文章給大家分享的是Python代碼實現圖片文字識別,內容挺不錯的,希望可以協助到有需要的朋友

我們以識別詩詞為例
下面是我們要識別的圖片

先看下


我們運行代碼後識別的結果,有幾個字沒有正確識別,但是大多數字都能識別出來。

風急天高猿嘯哀 渚芸胄芳少白鳥飛鳳無邊落木蕭蕭下, 不盡長量工盲袞宕袞來萬裡悲秋常1乍窨, 百年多病獨登氤艱難苦恨擎霜量 漂倒新停澍酉帆

一行代碼就能識別圖片,我們背後要做些準備工作的

  • 這裡我們需要用到兩個庫:pytesseract和PIL

  • 同時我們還需要安裝識別引擎tesseract-ocr

下面就來講講這幾個庫的安裝,因為只有這幾個庫安裝好以後Python才能實現一行代碼實現圖片文字識別

一,pytesseract和PIL的安裝

安裝這兩個包可以藉助pip
- 1,命令列安裝
pip install PIL
pip install pytesseract
- 2,如果你用的pycharm編輯器,就可以直接藉助pycharm實現快速安裝。
在pycharm的Settings設定頁按照下面步驟操作

這樣就能成功安裝pytesseract,安裝PIL只需要在上面第三步裡搜尋PIL並點擊安裝即可

這時我們安轉好了庫,運行下面代碼

from PIL import Imageimport pytesseracttext=pytesseract.image_to_string(Image.open('denggao.jpeg'),lang='chi_sim')print(text)

會報下面錯誤,錯誤原因是:沒有安裝識別引擎tesseract-ocr

二,安裝識別引擎tesseract-ocr

  • 1.下載下面的安裝包,然後直接點擊安裝即可
    tesseract-ocr安裝包和中文語言套件

解壓安裝tesseract-ocr後做如下操作,就可以支援中文識別了。因為tesseract-ocr預設不支援中文識別。

  • 2,安裝完成tesseract-ocr後,我們還需要做一下配置
    在C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py開啟後做如下操作

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY#tesseract_cmd = 'tesseract'tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

也可以通過pycharm快速開啟pytesseract.py

至此我們所有的配置就完成了,運行下面代碼就可以把杜甫的登高這首圖片詩解析成文字了

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.