pdfbox 不正确 header 检查 pdf 版本 1.3
pdfbox incorrect header check with pdf version 1.3
Apache PDFBox 的 PDF 版本 1.3 是否存在已知问题?如果我想使用 header 1.3 从 pdf 文档中提取文本,我得到一个异常:
java.util.zip.DataFormatException: incorrect header check
1.4 和 1.5 版的 PDF 文件可以使用。如果我使用外部工具手动将 PDF 文件从 1.3 版转换为 1.4 版,它也能正常工作。
这是我使用的代码:
final PDFParser parser = new PDFParser(new FileInputStream(fileName));
parser.parse();
cosDoc = parser.getDocument();
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setAddMoreFormatting(true);
text = pdfStripper.getText(pdDoc).trim();
我正在使用 Apache PDFBox 1.8.10
谢谢!
!!!修复了!!!
1.8.10 好像有bug。我将框架更新到 2.0.6 版,现在可以使用了。
看来 1.8.10
中有错误。我将框架更新到版本 2.0.6
并使用现在可以使用的相同 PDF 文件。
Apache PDFBox 的 PDF 版本 1.3 是否存在已知问题?如果我想使用 header 1.3 从 pdf 文档中提取文本,我得到一个异常:
java.util.zip.DataFormatException: incorrect header check
1.4 和 1.5 版的 PDF 文件可以使用。如果我使用外部工具手动将 PDF 文件从 1.3 版转换为 1.4 版,它也能正常工作。
这是我使用的代码:
final PDFParser parser = new PDFParser(new FileInputStream(fileName));
parser.parse();
cosDoc = parser.getDocument();
final PDFTextStripper pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setAddMoreFormatting(true);
text = pdfStripper.getText(pdDoc).trim();
我正在使用 Apache PDFBox 1.8.10
谢谢!
!!!修复了!!!
1.8.10 好像有bug。我将框架更新到 2.0.6 版,现在可以使用了。
看来 1.8.10
中有错误。我将框架更新到版本 2.0.6
并使用现在可以使用的相同 PDF 文件。