Ghostscript PDF 到文本分隔符
Ghostscript PDF to text delimiter
我正在尝试使用以下命令将 PDF 转换为带有 ghostscript 的文本:
-dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=bla.txt c:\temp\example.pdf
我的问题是 fields/columns 的分离。我的一些字段之间没有任何 space 或制表符,例如三列 "CAT"、"DOG"、“12345”将输出为 CATDOG12345。
有什么方法可以指定要使用的分隔符,这样我的文本就会出来 "CAT|DOG|12345"?
提前致谢
您可以修改来源。然而,这根本不应该发生,除非原件在文本片段之间没有 space。你没有说你用的是什么版本的Ghostscript,也没有提供例子,所以真的不可能多说。
您始终可以输出伪XML 格式的文本并自行提取片段及其位置。
我正在尝试使用以下命令将 PDF 转换为带有 ghostscript 的文本: -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=bla.txt c:\temp\example.pdf
我的问题是 fields/columns 的分离。我的一些字段之间没有任何 space 或制表符,例如三列 "CAT"、"DOG"、“12345”将输出为 CATDOG12345。
有什么方法可以指定要使用的分隔符,这样我的文本就会出来 "CAT|DOG|12345"?
提前致谢
您可以修改来源。然而,这根本不应该发生,除非原件在文本片段之间没有 space。你没有说你用的是什么版本的Ghostscript,也没有提供例子,所以真的不可能多说。
您始终可以输出伪XML 格式的文本并自行提取片段及其位置。