使用 Tika 的 PDF 解析区域
PDF parse area using Tika
我正在使用什么:我正在使用 Apache Tika 在我的 Java 应用程序上解析 PDF。
我需要什么:我需要解析我的 PDF 的特定区域(即由 Rectangle 对象定义),就像我通常对 iText 所做的那样。
问题:是否可以使用 Apache Tika 解析 PDF 的定义区域?怎么样?
Apache Tika 将为您提供文档的简化、规范化 HTML 表示。对于基于页面的格式,例如 PDF 或 PPT,它会标记页面边界,但对于非基于页面的格式(例如 运行-based .doc),它不会。
您需要做的是降级到 Apache PDFBox,这是为 Tika 中的 PDF 解析器提供支持的基础库。使用 PDFBox,您可以获取给定页面上对象的位置,确定它们是否在您想要的范围内,并获取它们的文本。它不会像使用 Apache Tika 那样简单,但要获得那种级别的控制,您需要更多地参与
我正在使用什么:我正在使用 Apache Tika 在我的 Java 应用程序上解析 PDF。
我需要什么:我需要解析我的 PDF 的特定区域(即由 Rectangle 对象定义),就像我通常对 iText 所做的那样。
问题:是否可以使用 Apache Tika 解析 PDF 的定义区域?怎么样?
Apache Tika 将为您提供文档的简化、规范化 HTML 表示。对于基于页面的格式,例如 PDF 或 PPT,它会标记页面边界,但对于非基于页面的格式(例如 运行-based .doc),它不会。
您需要做的是降级到 Apache PDFBox,这是为 Tika 中的 PDF 解析器提供支持的基础库。使用 PDFBox,您可以获取给定页面上对象的位置,确定它们是否在您想要的范围内,并获取它们的文本。它不会像使用 Apache Tika 那样简单,但要获得那种级别的控制,您需要更多地参与