使用 PHP 或 JS 解析扫描的 PDF 文件的最佳方法是什么?
What is the best way to Parse a scanned PDF file using PHP or JS?
我有一个翻译网站,我想解析 PDF 文件,以便计算字数并设置翻译价格。
我之前尝试过 Poppler JS。但它无法处理扫描的文件。我该如何处理它们?
例如,此 PDF 是一篇扫描的文章。它是一个PDF文件,但每页都是一张图片,我需要提取文本:
您正在寻找的是 OCR 库。有很多选项可以做到这一点,这里有一些软件推荐堆栈交换链接:
我有一个翻译网站,我想解析 PDF 文件,以便计算字数并设置翻译价格。
我之前尝试过 Poppler JS。但它无法处理扫描的文件。我该如何处理它们?
例如,此 PDF 是一篇扫描的文章。它是一个PDF文件,但每页都是一张图片,我需要提取文本:
您正在寻找的是 OCR 库。有很多选项可以做到这一点,这里有一些软件推荐堆栈交换链接: