检测图像文件的内容:在图片中查找扫描的文档

Detect the contents of an image file: Find a scanned document in amongst pictures

我有很多文件夹,里面有大量图像文件。有时,扫描的文档图像意外地出现在文件夹中,并且没有人目视扫描文件夹,这些仍然未被发现,但如果发布到错误的位置可能会导致问题。

由于任何文件类型和大小都在真实图像的广泛范围内,因此它们可以被扫描,因此很难从元数据中检测到它们。

有谁知道从真实图像检测扫描文档的方法 - 工具或编程方式?

我建议看一下 Accord 框架:http://accord-framework.net/。查看计算机视觉功能。我认为这应该取决于您所描述的任务,而且这是一个有趣的新学习领域。祝你好运。

假设扫描的文档看起来像任何图像处理库应该做的文档。您只需选择一些功能来整理任何不是文档的东西。使用这些特征应用一些基本分类或机器学习。

剩余的少数文件可以由人工或使用某些 ORC 检查。我不会 运行 对所有文件进行 OCR,因为它比简单分类需要更多的计算时间。

文档(尤其是机密文档)往往具有明亮的背景和高频的暗前景。黑暗的东西被分组在行中。几乎没有颜色,如果这些颜色通常只占文档的一小部分(徽标等) 我想不出有多少图像具有这些属性。

所以除非你的 collection 中有很多报纸和书籍的图片,否则你没问题。

当然,扫描仪和照相机具有不同的成像特性和光学像差,我相信您可以在文件中找到其中的一些,但这并不适用于所有图像。尤其是如果这些图像是从较大的图像中裁剪出来的。

文件夹中可以有其他背景文字图片吗?这些扫描文档中是否常见大图片?从非简单图像大海捞针中过滤大部分文本文档的一种非万无一失的方法是根据香农(直方图)熵对图像进行高通处理。大多数图像的熵值比简单文档高一个数量级。