在处理分配给它的存储桶中的所有 url 后,我的 spout 线程会在风暴爬虫中保持空闲状态吗?
Will my spout thread stay idle in storm crawler after processing all the urls in the bucket allocated to it?
1) 当数据库中的桶数大于线程数时会发生什么?
2)当只有一个桶中有 url 但有 10 个 spout 线程时会发生什么.. 剩下的 9 个线程会保持空闲吗?
您应该将 spout 实例的数量设置为与 bucket 的数量相同。如果桶数多于 spout 实例数,则只会查询编号小于或等于实例数的桶。
所有 spout 实例都通过指定桶号向数据库发送查询。如果相应的 bucket 包含 URL,这些将被发送到拓扑中,如果不是,spout 实例将在短暂的闲置后尝试再次查询它。
code of the SQL spout 非常简单。
1) 当数据库中的桶数大于线程数时会发生什么? 2)当只有一个桶中有 url 但有 10 个 spout 线程时会发生什么.. 剩下的 9 个线程会保持空闲吗?
您应该将 spout 实例的数量设置为与 bucket 的数量相同。如果桶数多于 spout 实例数,则只会查询编号小于或等于实例数的桶。
所有 spout 实例都通过指定桶号向数据库发送查询。如果相应的 bucket 包含 URL,这些将被发送到拓扑中,如果不是,spout 实例将在短暂的闲置后尝试再次查询它。
code of the SQL spout 非常简单。