文字为图和图形为图的区别

Difference between text as image and graphics as image

这个问题似乎很奇怪,但我需要问这个,因为当我将文本与图像进行比较,将图形与图像进行比较时,我看到了一个非常有趣的输出。

理想情况下,我正在确定一种工具或算法来比较两个 pdf,生成突出显示它们之间差异的输出。

pdf 中有可能将文本作为图像格式(纸上的遗留文本,被转换为 pdf)。

我们正在迁移那些旧版 pdf,最后我们将与旧版和转换后的 pdf 输出进行比较。

我正在评估一些工具,例如 Adob​​e dc pro、i-net pdfc 和 power pdf 等,用于比较两个 pdf。

在评估时,我能够看到在 pdf 的两边比较图形图像(也不准确)。当文本和图像完全被忽略时,所有工具的结果一致。

但我对图像文本更感兴趣,因为我们处理更多遗留文本 pdf。

下面附上图形图像对比结果,可以看出图像之间的差异。

但是当我比较文本图像时,工具中没有突出显示差异。

据我了解,文字并没有与图像图形进行比较,工具完全忽略了比较。我想澄清一下我的假设是否正确。

其次,我想知道如何比较pdf中的文本图像以产生差异?

我在 i-net PDFC 作者的公司工作,所以我也会回答你的第一个问题:

你的假设是正确的。 i-net PDFC 能够比较图像和形状,但它无法检测某些内容是否完全改变了它的含义,例如用于绘制字母或在您的情况下必须被识别为文本的图像的线条形状。出于同样的原因,将 ASCII 艺术识别为图像也行不通。这种情况总是会被检测为差异,即使它们的视觉外观相似。

关于你的第二个问题:对一个或两个文档使用 OCR 转换工具是解决此问题的常见方法。由于转换文件中的不同字体样式和换行,比较页面的简单图像比较不太可能起作用。 请注意,大多数 OCR 应用程序将使用呈现的页面图像进行识别。即使 PDF 文件中没有图像,这也可能导致错误的识别结果。

i-net Software 已意识到这一普遍问题,目前正在开发 OCR 模块。它将提供一个选项,仅将识别应用于 PDF 文件中的图像。