使用 pdfbox 2.0.X jars 提取文本

Question

我有一个 pdf 文件的输入流。现在我想从 inputStream 中提取所有字符串内容。我找到了以下示例。我应该使用第一个还是第二个？这两者之间有什么性能差异吗？第二个PDFParser有什么用？

片段 1：

PDDocument doc = PDDocument.load(is);

PDFTextStripper stripper = new PDFTextStripper();

String result = stripper.getText(doc);

片段 2：

PDFTextStripper stripper = new PDFTextStripper();

PDFParser parser = new PDFParser(newRandomAccessBufferedFileInputStream(stream));

parser.parse();

doc = parser.getPDDocument();

String content = stripper.getText(doc);

提前致谢！！！

Answer 1

使用第一个代码。第二个代码也可以工作，但是已经过时并且没有什么不同，解析内容在 load() 内调用。速度是一样的。使用文件作为参数或字节数组将获得最佳结果。使用流将需要 PDFBox 做一些额外的缓冲。您的代码没有说明 stream 来自哪里；如果它是 FileInputStream，那么您应该使用 File。

使用 pdfbox 2.0.X jars 提取文本

Text Extraction Using pdfbox 2.0.X jars

java

text-extraction

pdfbox