使用 Nutch2 获取所有 Pdf 文件 Urls
Get all Pdf file Urls with Nutch2
我正在使用带有 MongoDB 的 Nutch 2.3.1 进行持久化。我的目标是提取文件 URLs 而无需下载它们。
目前正在下载文件。我怎样才能禁用下载并仅在数据库中保留 URL?
如何从 Nutch2 中提取所有已抓取的 URL?
根据您要完成的任务,这可能需要进行一些修改:
如果您不想 parse/extract PDF 文件中的文本,那么您可以将 http.content.limit
的值设置得较低,这基本上会阻止 Nutch 下载比您下载的字节更多的字节在那里指定,但仍然能够发现文件的 URL,并将下载一个片段(您指定的字节数)。
当然,这也会影响您想要 fetch/download 的其余网址。
一种方法是编写您自己的协议插件,以防止您下载任何 PDF 文件。
我正在使用带有 MongoDB 的 Nutch 2.3.1 进行持久化。我的目标是提取文件 URLs 而无需下载它们。
目前正在下载文件。我怎样才能禁用下载并仅在数据库中保留 URL?
如何从 Nutch2 中提取所有已抓取的 URL?
根据您要完成的任务,这可能需要进行一些修改:
如果您不想 parse/extract PDF 文件中的文本,那么您可以将 http.content.limit
的值设置得较低,这基本上会阻止 Nutch 下载比您下载的字节更多的字节在那里指定,但仍然能够发现文件的 URL,并将下载一个片段(您指定的字节数)。
当然,这也会影响您想要 fetch/download 的其余网址。
一种方法是编写您自己的协议插件,以防止您下载任何 PDF 文件。