Apache Nutch:种子数量改变爬行行为
Apache Nutch: Amount of seeds changes the crawling behaviour
我使用 Apache Nutch 和 Solr 工作了一段时间,对一些站点进行爬网和索引。现在 Nutch 中有一个我无法解释的行为。有两种情况:
- 我用一个站点的种子列表启动 Nutch。
- 我使用包含多个站点的种子列表启动 Nutch,并且还包括方案 1 中的站点。
对于我在两种情况下都包含的单个种子,我希望抓取相同的 URL。在我看来没有区别。
反正如果我的意见是对的,我也不会写在这里。事实上,有两种不同数量的已抓取 URL。第一种情况下爬取的 URL 较多。因此,总结一下,如果我抓取单个种子,则抓取的广度比具有一堆网站的种子列表更广。
这种行为是标准的还是异常的?来自其他种子点的链接是否有可能以我分析的种子无法搜索所有链接的方式中断该过程?是设置问题还是 Nutch 问题。
有几个配置属性和参数会影响 Nutch 如何跟踪链接的方式。您观察到添加更多种子(来自不同的站点或主机)会导致每个主机的抓取数量减少 documents/pages,这可以很容易地解释为通过参数 -topN 设置的每轮获取的页面数量限制"generate" 步骤。如果获取列表被限制为,例如,每轮 100 页,
- (单张site/host)本站可抓取100页
- (有 10 个站点)只有大约。每个站点获取 10 个页面
在第二种情况下经过相同次数的轮数后,一个网站的页面抓取量减少了。
作为解决方案,您可以增加 -topN 或轮数 (-depth)。
我使用 Apache Nutch 和 Solr 工作了一段时间,对一些站点进行爬网和索引。现在 Nutch 中有一个我无法解释的行为。有两种情况:
- 我用一个站点的种子列表启动 Nutch。
- 我使用包含多个站点的种子列表启动 Nutch,并且还包括方案 1 中的站点。
对于我在两种情况下都包含的单个种子,我希望抓取相同的 URL。在我看来没有区别。
反正如果我的意见是对的,我也不会写在这里。事实上,有两种不同数量的已抓取 URL。第一种情况下爬取的 URL 较多。因此,总结一下,如果我抓取单个种子,则抓取的广度比具有一堆网站的种子列表更广。
这种行为是标准的还是异常的?来自其他种子点的链接是否有可能以我分析的种子无法搜索所有链接的方式中断该过程?是设置问题还是 Nutch 问题。
有几个配置属性和参数会影响 Nutch 如何跟踪链接的方式。您观察到添加更多种子(来自不同的站点或主机)会导致每个主机的抓取数量减少 documents/pages,这可以很容易地解释为通过参数 -topN 设置的每轮获取的页面数量限制"generate" 步骤。如果获取列表被限制为,例如,每轮 100 页,
- (单张site/host)本站可抓取100页
- (有 10 个站点)只有大约。每个站点获取 10 个页面
在第二种情况下经过相同次数的轮数后,一个网站的页面抓取量减少了。
作为解决方案,您可以增加 -topN 或轮数 (-depth)。