Ghostscript PDF 到文本分隔符

Ghostscript PDF to text delimiter

我正在尝试使用以下命令将 PDF 转换为带有 ghostscript 的文本: -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=bla.txt c:\temp\example.pdf

我的问题是 fields/columns 的分离。我的一些字段之间没有任何 space 或制表符,例如三列 "CAT"、"DOG"、“12345”将输出为 CATDOG12345。

有什么方法可以指定要使用的分隔符,这样我的文本就会出来 "CAT|DOG|12345"?

提前致谢

您可以修改来源。然而,这根本不应该发生,除非原件在文本片段之间没有 space。你没有说你用的是什么版本的Ghostscript,也没有提供例子,所以真的不可能多说。

您始终可以输出伪XML 格式的文本并自行提取片段及其位置。