在 .txt 文件中查找并替换 pdftotext 生成的图像字符

Find and replace pdftotext generated image character in .txt file

我使用 PHP 的 pdftotext 从 pdf 创建了很多 .txt 文件。

像这样使用它,这对所有文件中的所有文本部分都非常有效:

system("pdftotext -raw dir/$pdf_file 2>&1");

问题

但是,在新的 .txt 文件中,pdf 中的所有图像都显示为:

因此,在所有这些视图中,我有不同的方式来处理这个奇怪的字符。

问题

在一周内尝试了这么多代码之后,我仍在寻找一种方法来从所有 .txt 文件中找到并删除这个奇怪的图像字符。

有解决办法吗?

或者,这里有什么聪明的做法?使用带有代码或命令行的 php 文件?我现在有点迷茫了。

打印纯文本时的代码约定是 FF 通常表示 FormFeed,它是打印机的控制代码

↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED(分页)

这是一种指示/弹出页尾的方法,因此您应该在页面之间的分隔处看到一个。

有一个切换到 remove/exclude 他们所以试试,

system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");