如何在不下载的情况下从pdf和doc文件中提取文本

How to extract text from pdf and doc file without downloading

在问这个问题之前我已经搜索了很多。我有一个程序(java) 抓取一些网页并试图找到一些.doc 和 .pdf 文件，它可以下载它们，但只有一个 .pdf 或 .doc 最多可以覆盖 3-4mb，这不好，因为有数百万个文件.. 所以我决定在不下载整个文件的情况下提取他们的文本。基本上，我需要在线查看 pdf 或 doc 文件并只下载它们的文本，但我不知道该怎么做。如果需要我可以提供我的代码。

编辑：这个问题现在可以关闭了，因为我有了想法和（没有）解决方案。感谢您的帮助。

那些有问题的降级是怎么回事？

那是不可能的。下载字节后才能开始提取文档。

（除非您也可以控制服务器，否则您可以在服务器端进行提取并提供 txt 下载 link）

从 Internet 上的网站读取文件而不下载它是不可能的。

如果您可以控制服务器，您可以编写一个 Web 服务来按需解析文件并提取您感兴趣的部分，然后将其发送给客户端。

如果没有，并且如果您要解决更具挑战性的问题，您可以编写一个 HTTP 客户端开始下载文件并即时解析它，只下载您需要提取的部分（ s) 你需要。这可能可行（或不值得），也可能不可行，具体取决于 "interesting" 位在文件中的位置。如果在大多数情况下它们接近开始，那么您也许可以显着减小下载大小。

有关如何完成此操作的详细说明可能超出了 Whosebug 答案长度的指南范围。

如何在不下载的情况下从pdf和doc文件中提取文本

How to extract text from pdf and doc file without downloading

java

pdf

doc

web-crawler