C# 實現將 PDF 轉文本的功能

來源:互聯網
上載者:User

 更新

  2014年2月27日: 這篇文章最初只描述使用 PDFBox 來解析PDF檔案。現在它已經被擴充到包括使用 IFilter 和 iTextSharp 的常式了。

  這篇文章和對應的Visual Studio項目已經更新到目前最新的 PDFBox 版本(1.8.4)。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整項目(要消除依賴關係有點棘手)。

 如何解析 PDF 檔案

  在.NET中從PDF檔案裡提取文本的幾種主要方法有:

Microsoft 的 IFilter 介面 和 Adobe 的 IFilter 實現;

iTextSharp;

PDFBox。

  不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

 Adobe PDF IFilter

  為了使用 IFilter 介面來解析 PDF 檔案,你需要:

Windows 2000 或者後續版本

Adobe Acrobat 或 Reader 7.0.5+ (或單獨的 Adobe PDF IFilter [adobe.com])

IFilter COM 封裝類 [dotlucene.net]

  範例代碼:

using IFilter; // ... public static string ExtractTextFromPdf(string path) {  return DefaultParser.Extract(path); }

 缺點:

使用了不可靠的 COM Interop來處理 IFilter 介面 (並且組合 IFilter COM、 Adobe PDF IFilter 特別麻煩)。

需要在目標系統上單獨安裝 Adobe IFilter。如果你需要對其它人發布可索引的解決方案,會很痛苦。

 iTextSharp

  iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個 Java 的PDF 操作庫 iText(http://itextpdf.com/) 的.NET輸出。它主要著眼於編輯PDF而不是閱讀,但它當然也支援從PDF中提取文本(儘管有點大材小用)。

  常式:

using iTextSharp.text.pdf;using iTextSharp.text.pdf.parser; // ...  public static string ExtractTextFromPdf(string path){  using (PdfReader reader = new PdfReader(path))  {    StringBuilder text = new StringBuilder();     for (int i = 1; i <= reader.NumberOfPages; i++)    {        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));    }     return text.ToString();  }}

 信用證: 成員號 10364982

  缺點:

需要許可證(如果你不喜歡 AGPL許可證 的話)

 PDFBox

  PDFBox是另一個Java PDF類庫。它同時也可以與原來的Java Lucene一同使用(參見LucenePDFDocument)。

  幸運的是,PDFBox有一個使用IKVM.NET開發的.NET版本 (只需訪問PDFBox下載頁)。

  在.NET中使用PDFBox需要引用:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

  並將下列檔案複製到bin檔案夾下:

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

  使用PDFBox解析PDF十分簡單:

using org.apache.pdfbox.pdmodel;using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path){  PDDocument doc = null;  try {    doc = PDDocument.load(path)    PDFTextStripper stripper = new PDFTextStripper();    return stripper.getText(doc);  }  finally {    if (doc != null) {      doc.close();    }  }}

 編譯後的大小加起來差不多有18MB:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

  速度還可以:解析U.S. Copyright Act PDF (5.1 MB)檔案用了13秒。

  感謝bobrien100提供的改進建議。

  缺點:

IKVM.NET依賴 (18 MB)

速度(尤其是IKVM.NET的啟動時間)

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.