从 Java 中的 Office 和 PDF 文件中提取文本

Question

我有一个 .pdf、ppt、pptx、xls、xlsx、doc 和 .docx 文件列表List<File>，现在想在这些文件中查找电子邮件地址。我的问题是如何从这些文件中提取计划文本智能。目前我正在使用 Apache POI，并且我对每种类型的文件都有一个单一的方法，是否有更短、更优雅的方法来做到这一点？也许也可以处理 .odt、.odp、.ods 文件？如何将 .pdf、ppt、pptx、xls、xlsx、doc 和 .docx 文件中的计划文本转换为字符串？

Answer 1

你试过了吗JOffice？它支持 OpenOffice 文档格式（.odt、.ods）以及 Microsoft Office 文档格式。

Answer 2

如果 Apache 库可以将文件转换为文本，那么您可以在生成的文本中执行 regex search。如果你可以使用其他一些 Java 库，那么你可以直接在原始文档中搜索或者至少先将它们转换为纯文本。

我工作的公司有一些用于其中两种格式的库。使用 Gnostice XtremeDocumentStudio（适用于 Java）库，您可以将 PDF 和 DOCX 文件转换为纯文本。

DocumentConverter dc = new DocumentConverter();
dc.convertToFile("sample.pdf", "sample-pdf.txt");
dc.convertToFile("sample.docx", "sample-docx.txt");

使用 Gnostice PDFOne (for Java) 库，您可以直接执行 search in the PDF using a regex（另一个正则表达式，为电子邮件地址创建的，上面给出的 link）。此库仅适用于 PDF 文件。

PdfDocument doc = new PdfDocument();
doc.load("Input_Docs\input_doc.pdf");

// Obtain all website addresses in page 2
ArrayList lstSearchResults =
   (ArrayList) doc.search("http://{1}",  // regular expression
                          2, // page number
                          PdfSearchMode.REGEX,
                          PdfSearchOptions.NONE);

从 Java 中的 Office 和 PDF 文件中提取文本

Extract text from Office and PDF files in Java

java

pdf

excel

ms-office

apache-tika