ghostscript 如何将 PDF 转换为 .txt?

How does ghostscript convert PDF to .txt?

GNU Ghostscript 能够在终端中将 pdf 文件转换为 .txt(文本文件)。

gs -sDEVICE=txtwrite -o output.txt input.pdf

我想知道它是如何完成这个任务的?它使用 OCR 吗?

我不是在寻找非常详尽的解释,而只是朝着正确的方向推动(指向指南等的链接也可以)。

谢谢!

不,它不执行 OCR,这就是它有局限性的原因。它有多种技术并以分层方式使用它们:

  • 如果字体有 ToUnicode CMap,使用它来获取 Unicode 代码 积分
  • 如果不是,则根据标准检查字形名称(如果可用) 名单
  • 假设字符代码是 ASCII。

由于 Ghostscript 和相关的 txtwrite 设备是开源的,您可以轻松阅读源代码以获取更多信息。