pdfbox 不正确 header 检查 pdf 版本 1.3

pdfbox incorrect header check with pdf version 1.3

Apache PDFBox 的 PDF 版本 1.3 是否存在已知问题?如果我想使用 header 1.3 从 pdf 文档中提取文本,我得到一个异常:

java.util.zip.DataFormatException: incorrect header check

1.4 和 1.5 版的 PDF 文件可以使用。如果我使用外部工具手动将 PDF 文件从 1.3 版转换为 1.4 版,它也能正常工作。

这是我使用的代码:

final PDFParser parser = new PDFParser(new FileInputStream(fileName));
parser.parse();
cosDoc = parser.getDocument();
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setAddMoreFormatting(true);
text = pdfStripper.getText(pdDoc).trim();

我正在使用 Apache PDFBox 1.8.10

谢谢!

!!!修复了!!!

1.8.10 好像有bug。我将框架更新到 2.0.6 版,现在可以使用了。

看来 1.8.10 中有错误。我将框架更新到版本 2.0.6 并使用现在可以使用的相同 PDF 文件。