StormCrawler spouts 中的 bucket 是什么意思?
What is the meaning of bucket in StormCrawler spouts?
StormCrawler项目中的bucket是什么意思?我在项目的不同喷口中看到过桶。例如,在 Solr 和基于 Sql 的 spouts 中,我们在 spouts 中使用了它。
A bucket 只是一种从后端分区数据的方法,以保证在爬行时来源的良好多样性。这些值通常设置为页面的主机名、域或 IP。
如果没有存储桶,spout 可能会获取同一网站的大量 URL。 FetcherBolt 强制执行礼貌并在内部将 URL 存储在队列中,因此在最坏的情况下,它会有一个包含大量 URL 的队列并一个接一个地获取它们,并带有礼貌延迟。
通过分桶,您可以从不同的站点获取大量 URL 并并行获取它们。在内部,FetcherBolt 会有很多队列,每个队列中都有一些 URL。
使用 Grafana 仪表板(或 Kibana)时,您可以从 FetcherBolt 查看内部队列和活动线程的数量。
在性能方面,最好拥有尽可能多的来源。
StormCrawler项目中的bucket是什么意思?我在项目的不同喷口中看到过桶。例如,在 Solr 和基于 Sql 的 spouts 中,我们在 spouts 中使用了它。
A bucket 只是一种从后端分区数据的方法,以保证在爬行时来源的良好多样性。这些值通常设置为页面的主机名、域或 IP。
如果没有存储桶,spout 可能会获取同一网站的大量 URL。 FetcherBolt 强制执行礼貌并在内部将 URL 存储在队列中,因此在最坏的情况下,它会有一个包含大量 URL 的队列并一个接一个地获取它们,并带有礼貌延迟。
通过分桶,您可以从不同的站点获取大量 URL 并并行获取它们。在内部,FetcherBolt 会有很多队列,每个队列中都有一些 URL。
使用 Grafana 仪表板(或 Kibana)时,您可以从 FetcherBolt 查看内部队列和活动线程的数量。
在性能方面,最好拥有尽可能多的来源。