使用 Omnipage 或 Abbyy Finereader 将 PDF 转换为 Excel 时,是否有办法阻止它拆分单个单元格?

When converting PDF to Excel with Omnipage or Abbyy Finereader, is there are way to stop it from splitting individual cells?

我正在尝试从 PDF 文件中提取一些 table,这两种工具(Abbyy 和 Omnipage)都可以很好地识别 table。但是在识别行和列的时候,他们都犯了同样的错误。

通常,问题出现在他们创建部分行时,只水平拆分一个单元格,而不是其他单元格。有关我的意思的示例,请参见附图。在左侧的列中,一些单元格被分成两半,这使得 table 难以在 Excel 中使用。

我觉得这些程序一开始就这样做很奇怪,因为 table 带有分裂单元格的程序总是很痛苦。

有没有办法告诉这些程序只设置完整的列和行,而不是拆分单个单元格?

对其他解决方案有什么建议吗?

ABBYY有很多OCR产品,可配置的有FineReader Engine和FlexiLayout Studio。其他 ABBYY 产品没有要求的设置。