在不丢失文本格式的情况下提取文本

Text extraction without loosing the text format

嘿，

我目前正在研究文本提取软件，例如 pdftotext、antiword、catdoc 等...&我想了解为什么没有这样的软件保持文字完美。在不丢失格式的情况下解析文本有那么难吗？

谢谢。

Is it so difficult parse the text without losing the formatting?

是的！

i would like to understand why there isn't softwares that maintain the text perfect

如果你真的开始考虑解决这个问题，你会很快明白为什么这很难做到。通常发生的情况是人们看着他们的计算机屏幕，只看到上面绘制的一堆文本，并且不理解屏幕上的内容和文件中存储的内容之间的区别。

正如对该问题的一些评论所指出的，每种文件格式都有其独特的挑战，但我对 PDF 比其他文件格式更熟悉，所以让我们简单地看一下。

PDF 被构建为一种页面描述语言，请参阅 wikipedia，无论在何处查看，计算机都可以解释并在屏幕上绘制看起来像作者意图的东西。

这意味着 PDF 中存储的是计算机能够再现视觉表示的最少信息量，仅此而已。许多 PDF 创建工具都提供尽可能多的支持，其他创建工具提供有关 PDF 内容的更多信息，以便稍后可以提取内容而无需对 PDF 进行 OCR。

可以通过多种方式将文本、实际文本、包含文本的图像或路径存储在 PDF 中。可能还有更多，在我列出的 3 个中，只有 1 个是我们认为的 真实文本 ，除了从最终用户的角度来看它们都是文本，因为是他们所看到的，他们看不到文本是如何绘制到屏幕上的，甚至还没有开始谈论不同的语言、编码和字体。