Tika 无法正确阅读 pdf

Question

我正在使用 Tika 将 pdf 文件转换为 html，但输出结果与预期不符。该文档有 8 页长，只读取了 2 页，但它们在输出中重复出现。例如，它输出第 2、2、2、3、3、3、3、2 页。元数据还输出：

pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 1791

这里会发生什么？相关文件可在此处公开获得：Phantom_3_Standard_Quick_Start_Guide_en_201509.pdf

Answer 1

该 PDF 设置了“所有者密码”。没有密码就无法从中提取文本。

Answer 2

之所以出现这种令人惊讶的文本提取结果，是因为第 1、2、3、8 页的内容流非常相似，每个页面都绘制了所有四个页面的内容，它们仅在水平偏移上有所不同坐标、一些剪辑路径和次要细节。

基本上这些页面中的每一个都绘制了以下所有图像，但通过将它们移出页面区域或使用剪辑路径来隐藏不同的、不需要的部分：

另外第4-7页的内容流也很相似，基本上是：

特别是那四组中的文字没有区别。 Tika 显然忽略了它提取的文本是否可见。因此，您会在这四组中获得相同的提取文本。

^{我使用了 ShowVicinity，一个基于 PDFBox 的小型临时工具，使 PDF 页面的整个区域可见。}

Tika 无法正确阅读 pdf

Tika isnt reading pdf properly

html

pdf

apache-tika