如何增加 Apache Nutch 爬虫获取的文档数量

How to increase number of documents fetched by Apache Nutch crawler

我正在使用 Apache Nutch 2.3 进行抓取。开始时种子中大约有 200 个 url。现在随着时间的流逝，文档爬虫的数量将减少或最多与开始时相同。

我如何配置 Nutch 以便增加我的文档抓取次数？是否有任何参数可用于控制文件数量？二、如何快速统计每天抓取的文档数量？

一个爬行周期包括四个步骤：生成、获取、解析和更新数据库。有关详细信息，请阅读我的回答。

什么原因导致 URL 获取受限可能是由以下因素引起的：

抓取周期数：

如果您只执行一个爬网周期，那么您将获得很少的结果，因为最初会提取注入或播种到 crawdb 中的 URL。在渐进式抓取周期中，您的抓取数据库将更新为从之前抓取的页面中提取的新 URL。

topN值：

如前所述 here and here，topN 值导致 nutch 在每个循环中获取有限数量的 URLs。如果您的 topN 值较小，您将获得较少的页数。

generate.max.count

generate.max.count 在您的 nutch 配置文件中，即 nutch-default.xml 或 nutch-site.xml 限制 URL 的数量，如所述 here.

回答你关于如何计算每天抓取的页面数量 的第二个问题。您可以做的是阅读日志文件。从那里您可以累积有关每天抓取的页面数量的信息。

紧接着 1.x 日志文件在日志文件夹中生成 NUTCH_HOME/logs/hadoop.log

您可以像这样从日志中计算日期和状态 "fetching" 的行数：

cat logs/hadoop.log | grep -i 2016-05-26.*fetching | wc -l