如何在不下载的情况下从pdf和doc文件中提取文本

How to extract text from pdf and doc file without downloading

在问这个问题之前我已经搜索了很多。我有一个程序(java) 抓取一些网页并试图找到一些.doc.pdf 文件,它可以下载它们,但只有一个 .pdf 或 .doc 最多可以覆盖 3-4mb,这不好,因为有数百万个文件.. 所以我决定在不下载整个文件的情况下提取他们的文本。基本上,我需要在线查看 pdf 或 doc 文件并只下载它们的文本,但我不知道该怎么做。如果需要我可以提供我的代码。

编辑:这个问题现在可以关闭了,因为我有了想法和(没有)解决方案。 感谢您的帮助。

那些有问题的降级是怎么回事?

那是不可能的。下载字节后才能开始提取文档。

(除非您也可以控制服务器,否则您可以在服务器端进行提取并提供 txt 下载 link)

从 Internet 上的网站读取文件而不下载它是不可能的。

如果您可以控制服务器,您可以编写一个 Web 服务来按需解析文件并提取您感兴趣的部分,然后将其发送给客户端。

如果没有,并且如果您要解决更具挑战性的问题,您可以编写一个 HTTP 客户端开始下载文件并即时解析它,只下载您需要提取的部分( s) 你需要。这可能可行(或不值得),也可能不可行,具体取决于 "interesting" 位在文件中的位置。如果在大多数情况下它们接近开始,那么您也许可以显着减小下载大小。

有关如何完成此操作的详细说明可能超出了 Whosebug 答案长度的指南范围。