识别并提取 PDF 文档的特定部分

Identify and extract specific sections of a PDF document

我有几个 PDF 格式的考试。我想以编程方式将每个问题提取为单独的 image/document。 OCR 并不理想,因为它不能很好地保持 code/equation 格式。最终目标是制作闪存卡,每张卡都包含整个问题的图像。问题可以在同一页上,也可以是多部分的(例如 1a、2f 等)。

目前,我正在考虑使用 OCR 提取问题标签(例如 1、2、3 等),然后找到它们在 pdf 中的位置并提取从一个问题的开头到下一个。是否有任何框架或软件可以执行此操作或提供某种替代方法来简化此操作?

看看Science-Parse by Allen AI. It does a pretty decent job at extracting metadata from PDF documents. Often, its better than other text extracting software such as textract and pdfplumber

准确提取PDF中的数学公式,是多年来的研究课题。我没有找到任何与 精确提取 数学公式相关的开源 projects/packages/softwares,尽管有许多研究论文描述了这样做的方法,例如 this and this . (对识别数学公式或将它们转换为适当的标记(如 LaTeX、MathML 等)进行了更多研究)这些论文大多使用有关字体、基线、字形的信息边界框、行间距等,以正确识别数学公式并提取它们。

对于 OCR,您始终可以使用 Infty。 InftyReader 的描述是这样说的:

InftyReader recognizes scanned images of printed scientific documents including Math formulae, an outputs the recognition results in various formats: XML format for InftyEditor, LaTeX, MathML, Human-Readable TeX for the blinds, etc.