各種格式檔案ocr成word檔案的方法

來源:互聯網
上載者:User
  • 各種格式檔案ocr成word檔案的方法

你還在為不同格式的檔案怎麼變成word檔案發愁嗎?各種識別軟體各有缺陷,識別效率低,讓你痛苦不堪,有的只能識別字,對錶格和圖形無能為力,識別完了,版面亂七八糟,無法使用。現在好了,本文針對各種情況下文字識別進行總結,協助大家掌握正確方法,節省時間,本文給出了所有情況下全檔案表格、圖形、文字識別的完美解決方案:

1、PDF檔案的識別:

1)檔案可以直接識別的(以文本形式儲存的PDF檔案):安裝acrobat 7專業版,注意不是acrobat reader(下載 http://www.xdowns.com/soft/4/136/2006/Soft_29430.html),直接另存新檔rtf檔案(識別整個檔案),或者選擇工具列上的文字選擇按鈕,然後選擇文字地區,然後複製到word等中。

2)檔案不能直接識別的(以圖片形式儲存的PDF檔案):安裝office2003(下載http://www.xdowns.com/soft/188/215/2006/Soft_28356.html ),並裝上office工具Microsoft Office Document Imaging(完整安裝此工具),然後在印表機裡面會增加Microsoft Office Document Image Writer印表機,然後將PDF檔案列印到此印表機,選擇列印形成的檔案的儲存位置,然後會自動形成一個MDI檔案,並且自動用Microsoft Office Document Image開啟此檔案,然後選擇“工具”菜單下的“使用ocr識別文本”,識別完成後,在選擇“工具”下的,“將文本發送到word”,最後將把整個PDF檔案識別輸出到word檔案中。

注意:Microsoft Office Document Image可以非常準確的全檔案識別轉化中文、英文、表格,但是無法將圖形輸出到word,而是把檔案中的所有圖形單獨形成一個個獨立的圖片檔案,放在相同位置的一個相同名稱的檔案夾中,因此可用snagit軟體將圖形開啟,然後複製到word中。(所有的識別軟體都不能很好的處理圖形的識別問題,Microsoft Office Document Image的這種處理方法已經是非常好的解決這個問題了。)

3)加密的Pdf檔案:先下載解密軟體(下載http://www.xdowns.com/soft/4/85/2006/Soft_29750.html ),解密後在參看1),2)
4)繁體pdf檔案:用2)的方法識別到word後,用word中的“工具”--“語言”---“中文繁簡轉換”

2、caj檔案的識別:

1)局部文字識別:直接使用caj瀏覽器( http://www.xdowns.com/soft/4/136/2006/Soft_29737.html )的ocr
2)全檔案識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣
3)博碩論文全文下載:線上閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的檔案,拷貝到其他位置即可。然後使用2)全部轉化為word。

3、超星檔案的識別:

1)局部文字識別:直接使用超星瀏覽器( http://www.xdowns.com/soft/31/91/2006/Soft_27810.html )的ocr
2)全檔案識別:列印到Microsoft Office Document Image Writer印表機,後面和上面的2)操作一樣,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和本文識別到word中,在合并到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。此外在列印選項中,還要將頁面比例設成真實大小,而不是整寬。注意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的產生全本書的word版本時,你會欣喜若狂的,呵呵。我的實驗結果是一本280頁的書,識別需要幾分鐘的時間。

3)超星相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf檔案,然後在用1、的方法轉成word

4、其他情況下的識別:

使用snagit軟體(下載 http://www.xdowns.com/soft/31/46/2006/Soft_29690.html )將任何形式的文字可以變成圖片,例如使用snagit將螢幕拷貝成圖片,然後右鍵點擊圖片檔案,用microsoft Office Document Image開啟圖形,其他和2)一樣。

注意:其他的各種識別軟體請不要在用,因為要麼只能識別中文,要麼只能識別英文,要麼不能識別整個檔案,要麼不能識別螢幕拷貝映像,要麼識別誤差很大,要麼不能識別表格,要麼需要註冊,要麼識別速度很慢,要麼使用不便(和word結合不緊),這些軟體包括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoft PDF Converter,pdf2word,以及各種被推薦的軟體等等,我都裝過,現在都像LJ一樣刪除了。只要安裝了acrobat 專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟體很好得到。

針對一些問題的補充:
經過一些實驗,發現microsoft Office Document Image 存在一些不穩定的問題,例如在用caj列印到Microsoft Office Document Image Writer印表機時,發現用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現假死機。
另外頁面顯示大時,轉化的識別率較高。
如果頁數多的檔案,包括超星,如果有問題,可以分多次轉化。

再次補充:
1、由於虛擬列印到Microsoft Office Document Image Writer 比較慢,並且形成的虛擬檔案很大,1本200多頁的書大約是60M,因此會嚴重影響機器的運行速度和C盤空間以及記憶體空間,建議配置好的機器一次轉化不要超過200頁,配置差的不要超過100頁,同時列印時在右下角系統欄中會出現印表機圖,你可以雙擊,看到列印任務的進度,以免以為死機了。另外轉化完成後請刪除c:/windows/temp目錄下的虛擬列印檔案,否則你的c盤很快會被用光。

2、建議如果發生列印到Microsoft Office Document Image Writer很慢或者假死的情況,可以先列印到snagit虛擬印表機,會自動產生tiff檔案,速度比Microsoft Office Document Image Writer快,然後在snagit中,選擇印表機為Microsoft Office Document Image Writer印表機,(相當於再列印到Microsoft Office Document Image Writer印表機),然後選擇snagit---outputs下的printer,然後選擇snagit----file----finish output,即可產生msi檔案,其他一樣。轉化完成後請刪除c:/windows/systems32/snagit臨時檔案。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.