如何在 Kofax 扫描到 excel 的 PDF 中获取 table 中的 cel 值

How to get cel value in table in PDF scanned by Kofax to excel

我是 Kofax capture 的新手,我正在使用 table 从基本的发票扫描副本 (PDF) 中检索数据,其中包含索引文件的项目列表。之后的步骤如下:

  1. 创建了文档 class 并添加了 table 和 table 类型的索引字段,例如日期作为字段。 PDF日期栏值截图如下:

  1. 在验证过程中,日期字段值都显示在一个字段中,如下所示:

Date: 12/01/2018 12/02/2018 12/03/2018 12/04/2018

  1. 同样当导出到索引文件的值是上述格式时。

有没有一种方法可以使用 kofax capture 将每个单元格中的值检索为单独的条目或以逗号分隔?

Plain vanilla Kofax Capture (KC) 无法提取按 table 组织的数据。 KC 可以提取静态数据,即简单的键值对(例如发票号、发票日期、总金额)。

当然,您可以尝试像这样提取列:

但是,这可能会导致潜在的问题。如果数据不总是在同一个地方怎么办?如果数据在后续页面上继续存在怎么办?您所在区域的什么比整列小?如果文本重叠怎么办?如果您想要另一列包含额外数据,本质上是创建行,但如果某些列中存在巨大差距(如我的屏幕截图所示)怎么办?

如果需要 table 提取,您可能需要使用 Kofax Transformation Modules (KTM),它可作为 Kofax Capture 的附加组件提供。 KTM 具有更复杂的 table 提取方法,不限于单个表单布局。