在 .txt 文件中查找并替换 pdftotext 生成的图像字符
Find and replace pdftotext generated image character in .txt file
我使用 PHP 的 pdftotext 从 pdf 创建了很多 .txt 文件。
像这样使用它,这对所有文件中的所有文本部分都非常有效:
system("pdftotext -raw dir/$pdf_file 2>&1");
问题
但是,在新的 .txt 文件中,pdf 中的所有图像都显示为:
- 'FF' 打开文件时 FTP
- 在浏览器中使用 urlencode 的字符“%0C”(fopen)
- 没有 urlencode 的向上箭头 (fopen)
- ^L,在命令行上使用 less 时(在 CentOs 7 中),其中即使 sed 's/^L//g' 对单个文件名也不起作用。
因此,在所有这些视图中,我有不同的方式来处理这个奇怪的字符。
问题
在一周内尝试了这么多代码之后,我仍在寻找一种方法来从所有 .txt 文件中找到并删除这个奇怪的图像字符。
有解决办法吗?
或者,这里有什么聪明的做法?使用带有代码或命令行的 php 文件?我现在有点迷茫了。
打印纯文本时的代码约定是 FF 通常表示 FormFeed,它是打印机的控制代码
↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED
(分页)
这是一种指示/弹出页尾的方法,因此您应该在页面之间的分隔处看到一个。
有一个切换到 remove/exclude 他们所以试试,
system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");
我使用 PHP 的 pdftotext 从 pdf 创建了很多 .txt 文件。
像这样使用它,这对所有文件中的所有文本部分都非常有效:
system("pdftotext -raw dir/$pdf_file 2>&1");
问题
但是,在新的 .txt 文件中,pdf 中的所有图像都显示为:
- 'FF' 打开文件时 FTP
- 在浏览器中使用 urlencode 的字符“%0C”(fopen)
- 没有 urlencode 的向上箭头 (fopen)
- ^L,在命令行上使用 less 时(在 CentOs 7 中),其中即使 sed 's/^L//g' 对单个文件名也不起作用。
因此,在所有这些视图中,我有不同的方式来处理这个奇怪的字符。
问题
在一周内尝试了这么多代码之后,我仍在寻找一种方法来从所有 .txt 文件中找到并删除这个奇怪的图像字符。
有解决办法吗?
或者,这里有什么聪明的做法?使用带有代码或命令行的 php 文件?我现在有点迷茫了。
打印纯文本时的代码约定是 FF 通常表示 FormFeed,它是打印机的控制代码
↑ 12 00/12 14 %0C FF (CtrL=^L) FORM FEED
(分页)
这是一种指示/弹出页尾的方法,因此您应该在页面之间的分隔处看到一个。
有一个切换到 remove/exclude 他们所以试试,
system("pdftotext -raw -nopgbrk dir/$pdf_file 2>&1");