使用 itext 从 pdf 中提取数学文本

Extracting Mathematical text from pdf using itext

我有一本 pdf 教科书,里面有这样的数学方程式:

但是,如果我尝试进行简单的文本提取,我会得到以下内容: V(r) = - 3 - - 2R R2 这不是图像,它是文本,但我不知道如何保留它的外观并将实际字符放入文本文件中。

您 运行 遇到的问题是一个经常遇到的问题。 PDF 本质上不关心结构。它没有列、段落、文本行甚至单词的概念,更不用说具有许多特殊格式的数学公式了。

PDF - 本质上 - 只对将内容放在页面上的特定位置感兴趣。这也正是它对您的公式所做的,它将使用您的公式所需的字符和图形并将它们放在页面上的某个位置。没有任何额外的知识,您以后可以使用这些知识来弄清楚这些字符和图形甚至属于一个公式;更不用说在提取文本时重建它了。

另外两点:

1) 如果你分享一个这样的PDF文档的例子,我们可以看看里面是否有一些有用的信息可以用来更有效地提取这个公式;但机会接近于零。

2) 您还必须从您的角度定义什么是 "useful way"。公式不能很好地转换为纯文本文件,因此您可能需要像 MathML 这样的东西来存储它们。