风暴爬虫中的桶号有什么用?
what is the use of bucket number in storm crawler?
在使用分区"host"爬取多个网站时,分区键也称为桶是基于主机生成的。
每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会怎样?
在这种情况下,我只有一个桶,这意味着只有一个 spout 实例可以访问我的桶?
如果抓取了一个存储桶中的所有 url,则万一抓取许多网站。spout 实例是否会移动到下一个存储桶?
如果您抓取一个站点,那么是的,只有一个 spout 将处于活动状态。
如果您抓取许多站点,它们将分布在多个存储桶中,并且相同数量的 spout 实例将处于活动状态。当没有更多的 URL 可以为分片获取时,相应的 spout 将不会向拓扑中发送 URL。其他 spout 实例将继续处理 URL,直到没有更多事情要做。
在使用分区"host"爬取多个网站时,分区键也称为桶是基于主机生成的。 每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会怎样? 在这种情况下,我只有一个桶,这意味着只有一个 spout 实例可以访问我的桶? 如果抓取了一个存储桶中的所有 url,则万一抓取许多网站。spout 实例是否会移动到下一个存储桶?
如果您抓取一个站点,那么是的,只有一个 spout 将处于活动状态。 如果您抓取许多站点,它们将分布在多个存储桶中,并且相同数量的 spout 实例将处于活动状态。当没有更多的 URL 可以为分片获取时,相应的 spout 将不会向拓扑中发送 URL。其他 spout 实例将继续处理 URL,直到没有更多事情要做。