将 PDF 文件夹转换为 CMYK 值的 csv

Convert a folder of PDFs into a csv of CMYK values

tldr:如何将 pdf 文件夹转换为 CMYK 值列表(或 RGB 或任何类型的色标值),最好是 python。

我有一个文件夹,里面有大约 100,000 个文件。为了更轻松地对这些文档进行采样,我想对文档进行 运行 数据分析(聚类和异常检测),我想要的一个指标是 CMYK 覆盖率。在(最好)python 中是否有任何方法或程序包可以计算 PDF 的 CMYK 覆盖率?

****编辑****

经过一些研究,我发现 GhostScript 应该提供我需要的功能,如果有人可以帮助我实现,我仍然会非常感激。

./gs -sDEVICE=inkcov -sOutputFile=out.txt input.pdf 应该会为您提供文件中每一页的 CMYK 覆盖范围。

您可以使用 -dQUIET -o - 而不是 -sOutputFile 将输出发送到标准输出。

然后您需要一些批处理脚本,这取决于您的操作系统。在 Windows 上是这样的:

for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt

应该从文件夹中获取每个文件,运行 它通过 inkcov 设备并将输出发送到 stdout,我们将其重定向到一个文件并使用 >> 这样每次执行都会附加到文件而不是覆盖以前的输出。

当然,您需要在每次 运行 之后删除输出文件。