将 pdf 转换为 txt

converting pdf to txt

我正在尝试将 pdf 转换为 Flint water crisis emails from Gov. Snyder 的文本。基本上,他们有 20k+ 页的电子邮件从 Outlook 打印出来,然后扫描为 .pdf 格式。 (令人讨厌,我知道。)我已经尝试过各种工具,如 Tesseract(直接使用和使用 ImageMagik 将 .pdf 转换为 .tif 之后使用),但我只是得到了一堆 gobbledeegook。

有没有人对如何处理这些文件有任何其他建议?我可以在 Acrobat Reader 中打开它们并复制所有文本,但结果格式很差且不一致,因此编写一个脚本来清理它非常具有挑战性。

提前致谢!

OCR 的质量直接取决于图像质量、文档格式和布局,以及您使用的 OCR 技术的质量和正确配置。随着文档复杂性的增加,通常您会从免费的 OCR 转向更强大的商业解决方案,以获得更高的 OCR 结果。如果您需要格式保存,那仅存在于少数商业 OCR 应用程序中。任何一家主要的 OCR 供应商都是您的答案。

考虑使用基于 Web 的 OCR-IT API (www.ocr-it.com) 进行此转换。 /市场上质量最高的 OCR 之一。我是该系统的原始开发人员之一,我们的目标是实现市场上的顶级质量。

此外,如果此转换是出于良好的事业和人民的利益,由非营利组织、非商业项目或只是一个善意的个人项目,我和我的朋友们想提供帮助。我们自愿并免费提供大量转换。我们在 return 中贡献我们的技能和高质量的 OCR 软件以获得非货币补偿,例如在您的项目中提及、在您的圈子中分享我们、传播我们的善意等。