如何复制带有一些文本替换和修订的 PDF

How do I duplicate a PDF with some text replacement and redaction

我正在探索通过 C# 使用 PDF 的几个第三方组件。这些是 Aspose.pdf.net 和 iTextSharp。以下是我探索它们的详细信息:

我有一些 PDF 包含文本形式的敏感信息,例如人名、城市等。 这些 PDF 需要复制到另一个副本中,但在创建副本时,需要搜索敏感文本并用一些虚拟文本替换。替换对于避免通过任何欺诈手段追踪原始信息至关重要。 另外,替换的文本需要编辑。

查找文本应支持 RegEx,因为可能存在需要屏蔽的文本变体。

能否请您协助我如何使用 iTextShart 完成此操作。

提前致谢。

iTextSharp 能够使用 PdfSweep 模块 (http://itextpdf.com/itext7/pdfsweep) 进行完全编辑(视觉以及存储在 pdf 中的数据)。 为了在文本搜索后进行编辑,您必须:

  1. 从文档中提取文本(可以使用 iText 完成)。
  2. 搜索提取的文本并获取要编辑的文本的位置。 (需要您的实施)
  3. 使用这些位置来定义 PdfSweep 必须编辑的位置。 (几行代码)

默认情况下,PdfSweep 通过在位置上绘制彩色条在视觉上进行编辑,并在内部删除文本和任何图像。 虽然在技术上可以使用 iText 用一些虚拟文本填充已编辑的位置,但其实现存在许多缺陷。

PdfSweep 是 iText7 的闭源模块,您可以联系我们的销售团队以获取有关许可的更多信息。