Tika 无法正确阅读 pdf

Tika isnt reading pdf properly

我正在使用 Tika 将 pdf 文件转换为 html,但输出结果与预期不符。该文档有 8 页长,只读取了 2 页,但它们在输出中重复出现。例如,它输出第 2、2、2、3、3、3、3、2 页。元数据还输出:

pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 1791

这里会发生什么?相关文件可在此处公开获得:Phantom_3_Standard_Quick_Start_Guide_en_201509.pdf

该 PDF 设置了“所有者密码”。没有密码就无法从中提取文本。

之所以出现这种令人惊讶的文本提取结果,是因为第 1、2、3、8 页的内容流非常相似,每个页面都绘制了所有四个页面的内容,它们仅在水平偏移上有所不同坐标、一些剪辑路径和次要细节。

基本上这些页面中的每一个都绘制了以下所有图像,但通过将它们移出页面区域或使用剪辑路径来隐藏不同的、不需要的部分:

另外第4-7页的内容流也很相似,基本上是:

特别是那四组中的文字没有区别。 Tika 显然忽略了它提取的文本是否可见。因此,您会在这四组中获得相同的提取文本。


我使用了 ShowVicinity,一个基于 PDFBox 的小型临时工具,使 PDF 页面的整个区域可见。