ghostscript 如何将 PDF 转换为 .txt?
How does ghostscript convert PDF to .txt?
GNU Ghostscript 能够在终端中将 pdf 文件转换为 .txt(文本文件)。
gs -sDEVICE=txtwrite -o output.txt input.pdf
我想知道它是如何完成这个任务的?它使用 OCR 吗?
我不是在寻找非常详尽的解释,而只是朝着正确的方向推动(指向指南等的链接也可以)。
谢谢!
不,它不执行 OCR,这就是它有局限性的原因。它有多种技术并以分层方式使用它们:
- 如果字体有 ToUnicode CMap,使用它来获取 Unicode 代码
积分
- 如果不是,则根据标准检查字形名称(如果可用)
名单
- 假设字符代码是 ASCII。
由于 Ghostscript 和相关的 txtwrite 设备是开源的,您可以轻松阅读源代码以获取更多信息。
GNU Ghostscript 能够在终端中将 pdf 文件转换为 .txt(文本文件)。
gs -sDEVICE=txtwrite -o output.txt input.pdf
我想知道它是如何完成这个任务的?它使用 OCR 吗?
我不是在寻找非常详尽的解释,而只是朝着正确的方向推动(指向指南等的链接也可以)。
谢谢!
不,它不执行 OCR,这就是它有局限性的原因。它有多种技术并以分层方式使用它们:
- 如果字体有 ToUnicode CMap,使用它来获取 Unicode 代码 积分
- 如果不是,则根据标准检查字形名称(如果可用) 名单
- 假设字符代码是 ASCII。
由于 Ghostscript 和相关的 txtwrite 设备是开源的,您可以轻松阅读源代码以获取更多信息。