让 ghostscript 单独留下 JBIG2 文件
Having ghostscript leave JBIG2 files alone
我正在使用 gs
从 PDF 中删除一些错误的 OCR,PDF 本质上是带有不可见文本层的书页图像。其中一些页面图像被编码为 JBIG2。当我通过 gs 运行 它们时,它会将图像格式更改为 CCIT,这通常还不错,但可以比 JBIG2 版本大 10 到 20 倍。
我一直在寻找一种方法,要么让 gs 不理会它们——比如 PassThroughJPEGImages——要么用 MonoImageEncoder 重新编码它们,但我没有成功。我没有找到任何类似的直通选项,并且在将编码器设置为 JBIG2Encode 时出错。根据我的发现,我假设后者不是标准选项,但需要 Luratech 库。
任何人都可以确认或 - 最好 - 解释我的错误吗?
TIA。
目前没有办法让 Ghostscript 不加改动地传递 JBIG2 图像。
pdfwrite 设备不允许将 JBIG2Encode 作为一种可能的编码方法,因此您不能使用它。
这样做的结果是您只能将 CCITTFaxEncode 用作 MonoImageEncode 参数。
一般来说,JBIG2 比 CCITTFax 好一点点,但文本除外,如果文本的内容是已知的,可以通过重用段 (这也是 2013 年成为新闻的 JBIG2 解码错误的来源)。听起来你的图像是这样编码的,所以是的,你会得到更大的图像。
我正在使用 gs
从 PDF 中删除一些错误的 OCR,PDF 本质上是带有不可见文本层的书页图像。其中一些页面图像被编码为 JBIG2。当我通过 gs 运行 它们时,它会将图像格式更改为 CCIT,这通常还不错,但可以比 JBIG2 版本大 10 到 20 倍。
我一直在寻找一种方法,要么让 gs 不理会它们——比如 PassThroughJPEGImages——要么用 MonoImageEncoder 重新编码它们,但我没有成功。我没有找到任何类似的直通选项,并且在将编码器设置为 JBIG2Encode 时出错。根据我的发现,我假设后者不是标准选项,但需要 Luratech 库。
任何人都可以确认或 - 最好 - 解释我的错误吗?
TIA。
目前没有办法让 Ghostscript 不加改动地传递 JBIG2 图像。
pdfwrite 设备不允许将 JBIG2Encode 作为一种可能的编码方法,因此您不能使用它。
这样做的结果是您只能将 CCITTFaxEncode 用作 MonoImageEncode 参数。
一般来说,JBIG2 比 CCITTFax 好一点点,但文本除外,如果文本的内容是已知的,可以通过重用段 (这也是 2013 年成为新闻的 JBIG2 解码错误的来源)。听起来你的图像是这样编码的,所以是的,你会得到更大的图像。