如何在 php 中使用 ghostscript 从 pdf 中提取文本

how to extract text from pdf using ghostscript in php

我正在尝试使用以下命令从 pdf 中提取文本,但它不起作用并返回 null。

$text = shell_exec(gs -q -sDEVICE=txtwrite -dBATCH -dNOPAUSE -dFirstPage='.(int)$page_number.' -dLastPage='.(int)($page_number+1).' -sOutputFile=textfilename.txt exemple.pdf');

你没有字符串作为那里的参数,你需要在将值传递给命令之前对其进行转义。最后,您需要指定一个输出文件,在这种情况下您希望数据转到 STDOUT 以供 PHP.

访问
$first_page = escapeshellarg((int)$page_number);
$last_page = escapeshellarg($page_number + 1);
$text = shell_exec("gs -q -sDEVICE=txtwrite -dBATCH -dNOPAUSE -dFirstPage=$first_page -dLastPage=$last_page -sOutputFile=%stdout exemple.pdf");