如何增加 Apache Nutch 爬虫获取的文档数量

How to increase number of documents fetched by Apache Nutch crawler

我正在使用 Apache Nutch 2.3 进行抓取。开始时种子中大约有 200 个 url。现在随着时间的流逝,文档爬虫的数量将减少或最多与开始时相同。

我如何配置 Nutch 以便增加我的文档抓取次数?是否有任何参数可用于控制文件数量? 二、如何快速统计每天抓取的文档数量?

一个爬行周期包括四个步骤:生成、获取、解析和更新数据库。有关详细信息,请阅读我的回答

什么原因导致 URL 获取受限可能是由以下因素引起的:

抓取周期数:

如果您只执行一个爬网周期,那么您将获得很少的结果,因为最初会提取注入或播种到 crawdb 中的 URL。在渐进式抓取周期中,您的抓取数据库将更新为从之前抓取的页面中提取的新 URL。

topN值:

如前所述 here and here,topN 值导致 nutch 在每个循环中获取有限数量的 URLs。如果您的 topN 值较小,您将获得较少的页数。

generate.max.count

generate.max.count 在您的 nutch 配置文件中,即 nutch-default.xmlnutch-site.xml 限制 URL 的数量,如所述 here.


回答你关于如何计算每天抓取的页面数量 的第二个问题。您可以做的是阅读日志文件。从那里您可以累积有关每天抓取的页面数量的信息。

紧接着 1.x 日志文件在日志文件夹中生成 NUTCH_HOME/logs/hadoop.log

您可以像这样从日志中计算日期和状态 "fetching" 的行数:

cat logs/hadoop.log | grep -i 2016-05-26.*fetching | wc -l