使用 Nutch2 获取所有 Pdf 文件 Urls

Get all Pdf file Urls with Nutch2

我正在使用带有 MongoDB 的 Nutch 2.3.1 进行持久化。我的目标是提取文件 URLs 而无需下载它们。

目前正在下载文件。我怎样才能禁用下载并仅在数据库中保留 URL?

如何从 Nutch2 中提取所有已抓取的 URL?

根据您要完成的任务,这可能需要进行一些修改:

如果您不想 parse/extract PDF 文件中的文本,那么您可以将 http.content.limit 的值设置得较低,这基本上会阻止 Nutch 下载比您下载的字节更多的字节在那里指定,但仍然能够发现文件的 URL,并将下载一个片段(您指定的字节数)。

当然,这也会影响您想要 fetch/download 的其余网址。

一种方法是编写您自己的协议插件,以防止您下载任何 PDF 文件。