如何从 pdf 文件中的 table 获取文本?

how can get text from table in pdf file?

我想从 table 获取 PDF 文件中的文本?

我无法在 table 中获取单元格。我尝试使用 Leadtools 的 运行 示例,但它无法自动检测单元格。

https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html

你能给我点建议吗?谢谢大家

在与您发布的图像相似的 table 中,您应该能够使用 IOcrPage.TableZoneManager.AutoDetectCells() 方法找到单元格。当前版本的 LEADTOOLS 附带的 OcrMultiEngineDemo 项目中使用了此方法。

测试方法如下:

  1. 运行 OCR 多引擎演示。
  2. Select OmniPage OCR 引擎
  3. 打开包含 table.
  4. 的图像或 PDF 文件
  5. 在 table 周围画一个区域。
  6. 从 OCR->区域菜单中选择“更新区域...”。
  7. 在“Update Zones”对话框中,点击“Detect Cells”,如图所示。

如果这没有给您带来预期的结果,请将您正在测试的实际文件发送至支持@leadtools.com,并解释您的测试方式。