使用 Nutch2 获取所有 Pdf 文件 Urls

Get all Pdf file Urls with Nutch2

我正在使用带有 MongoDB 的 Nutch 2.3.1 进行持久化。我的目标是提取文件 URLs 而无需下载它们。

目前正在下载文件。我怎样才能禁用下载并仅在数据库中保留 URL？

如何从 Nutch2 中提取所有已抓取的 URL？

根据您要完成的任务，这可能需要进行一些修改：

如果您不想 parse/extract PDF 文件中的文本，那么您可以将 http.content.limit 的值设置得较低，这基本上会阻止 Nutch 下载比您下载的字节更多的字节在那里指定，但仍然能够发现文件的 URL，并将下载一个片段（您指定的字节数）。

当然，这也会影响您想要 fetch/download 的其余网址。

一种方法是编写您自己的协议插件，以防止您下载任何 PDF 文件。