使用 Tika 的 PDF 解析区域

PDF parse area using Tika

我正在使用什么：我正在使用 Apache Tika 在我的 Java 应用程序上解析 PDF。

我需要什么：我需要解析我的 PDF 的特定区域（即由 Rectangle 对象定义），就像我通常对 iText 所做的那样。

问题：是否可以使用 Apache Tika 解析 PDF 的定义区域？怎么样？

Apache Tika 将为您提供文档的简化、规范化 HTML 表示。对于基于页面的格式，例如 PDF 或 PPT，它会标记页面边界，但对于非基于页面的格式（例如运行-based .doc），它不会。

您需要做的是降级到 Apache PDFBox，这是为 Tika 中的 PDF 解析器提供支持的基础库。使用 PDFBox，您可以获取给定页面上对象的位置，确定它们是否在您想要的范围内，并获取它们的文本。它不会像使用 Apache Tika 那样简单，但要获得那种级别的控制，您需要更多地参与