使用 PHP 或 JS 解析扫描的 PDF 文件的最佳方法是什么？

What is the best way to Parse a scanned PDF file using PHP or JS?

我有一个翻译网站，我想解析 PDF 文件，以便计算字数并设置翻译价格。

我之前尝试过 Poppler JS。但它无法处理扫描的文件。我该如何处理它们？

例如，此 PDF 是一篇扫描的文章。它是一个PDF文件，但每页都是一张图片，我需要提取文本：

您正在寻找的是 OCR 库。有很多选项可以做到这一点，这里有一些软件推荐堆栈交换链接：

Scan Text Document To PDF With OCR

JavaScript library for OCR