StormCrawler spouts 中的 bucket 是什么意思？

What is the meaning of bucket in StormCrawler spouts?

StormCrawler项目中的bucket是什么意思？我在项目的不同喷口中看到过桶。例如，在 Solr 和基于 Sql 的 spouts 中，我们在 spouts 中使用了它。

A bucket 只是一种从后端分区数据的方法，以保证在爬行时来源的良好多样性。这些值通常设置为页面的主机名、域或 IP。

如果没有存储桶，spout 可能会获取同一网站的大量 URL。 FetcherBolt 强制执行礼貌并在内部将 URL 存储在队列中，因此在最坏的情况下，它会有一个包含大量 URL 的队列并一个接一个地获取它们，并带有礼貌延迟。

通过分桶，您可以从不同的站点获取大量 URL 并并行获取它们。在内部，FetcherBolt 会有很多队列，每个队列中都有一些 URL。

使用 Grafana 仪表板（或 Kibana）时，您可以从 FetcherBolt 查看内部队列和活动线程的数量。

在性能方面，最好拥有尽可能多的来源。