在不丢失文本格式的情况下提取文本

Text extraction without loosing the text format

嘿,

我目前正在研究文本提取软件,例如 pdftotextantiwordcatdoc 等...&我想了解为什么没有这样的软件保持文字完美。在不丢失格式的情况下解析文本有那么难吗?

谢谢。

Is it so difficult parse the text without losing the formatting?

是的!

i would like to understand why there isn't softwares that maintain the text perfect

如果你真的开始考虑解决这个问题,你会很快明白为什么这很难做到。通常发生的情况是人们看着他们的计算机屏幕,只看到上面绘制的一堆文本,并且不理解屏幕上的内容和文件中存储的内容之间的区别。

正如对该问题的一些评论所指出的,每种文件格式都有其独特的挑战,但我对 PDF 比其他文件格式更熟悉,所以让我们简单地看一下。

PDF 被构建为一种页面描述语言,请参阅 wikipedia,无论在何处查看,计算机都可以解释并在屏幕上绘制看起来像作者意图的东西。

这意味着 PDF 中存储的是计算机能够再现视觉表示的最少信息量,仅此而已。许多 PDF 创建工具都提供尽可能多的支持,其他创建工具提供有关 PDF 内容的更多信息,以便稍后可以提取内容而无需对 PDF 进行 OCR。

可以通过多种方式将文本、实际文本、包含文本的图像或路径存储在 PDF 中。可能还有更多,在我列出的 3 个中,只有 1 个是我们认为的 真实文本 ,除了从最终用户的角度来看它们都是文本,因为是他们所看到的,他们看不到文本是如何绘制到屏幕上的,甚至还没有开始谈论不同的语言、编码和字体。