使用 Ghostscript 从 PDF 中提取文本
Extracting text from PDF with Ghostscript
我正在使用 Ghostscript 9.20 从仅包含两行文本的 PDF 文档中提取文本:
Hello world…
A beautiful day!
应用的代码是:
gswin32c -sDEVICE=txtwrite -o output.txt input.pdf
然而,输出是:
䠀攀氀氀漀 眀漀爀氀搀☠
䄀 戀攀愀甀琀椀昀甀氀 搀愀礀℀
这是怎么回事,我该如何解决?
9.20 版本中存在一个错误,它影响了某些 种文本提取。并非全部,这取决于输入,并且由于您没有提供它无法判断您的特定输入文件是否受到影响。
要修复它,您可以:
- 从我们的 Git 存储库克隆 Ghostscript,构建并测试最新代码。
- 等到下一个版本(3 月)再测试。
- 打开错误报告,就会有人查看。虽然这实际上对你没有帮助。如果它已经被修复,那么你必须选择 1 或 2。如果它还没有被修复,那么你需要等到它被修复,然后按照 1 或 2,但至少你会有帮助改进了产品。
我正在使用 Ghostscript 9.20 从仅包含两行文本的 PDF 文档中提取文本:
Hello world…
A beautiful day!
应用的代码是:
gswin32c -sDEVICE=txtwrite -o output.txt input.pdf
然而,输出是:
䠀攀氀氀漀 眀漀爀氀搀☠
䄀 戀攀愀甀琀椀昀甀氀 搀愀礀℀
这是怎么回事,我该如何解决?
9.20 版本中存在一个错误,它影响了某些 种文本提取。并非全部,这取决于输入,并且由于您没有提供它无法判断您的特定输入文件是否受到影响。
要修复它,您可以:
- 从我们的 Git 存储库克隆 Ghostscript,构建并测试最新代码。
- 等到下一个版本(3 月)再测试。
- 打开错误报告,就会有人查看。虽然这实际上对你没有帮助。如果它已经被修复,那么你必须选择 1 或 2。如果它还没有被修复,那么你需要等到它被修复,然后按照 1 或 2,但至少你会有帮助改进了产品。