Web Crawler中如何使用Message Queue？

How to use Message Queue in Web Crawler?

Web Crawler 与位于不同机器上的多个 Worker 一起工作，因此，作为集成层的 Message Queue 似乎非常适合。

但问题是我不知道该怎么做。

没有 MQ 架构看起来如下 - 有一个共享数据库，Worker 在数据库中查找下一个 url 来处理，处理它并更新数据库。

但是，如何使用 MQ 来实现呢？假设要处理的站点的url存储在DB中，是否应该全部放到Message Queue中供Worker消费？

如果有 100 000 个这样的 url 和 100 个这样的站点怎么办？我应该一次将 100 000 000 个对象放入消息队列吗？或者应该有某种背压 - 比如 - 我把 100 url 放在队列中，等到所有的都被处理，然后再放下一个 100 等等？

或者，也许这样的用例不适合消息队列？

Message Queue 是一个很好的模式，可以在您有工作人员/后台作业时使用。

但通常当延迟很重要或者您有多个不同的源要收听时，您通常需要使用它（在这种情况下，队列通常比数据库访问更快/更好地实现）。

巨大的优势是能够控制流量，例如使用背压，正如您提到的那样。

我认为将数百万个对象保持在队列中不是问题，它们已为此进行了优化。例如，ActiveMQ 有一个分页缓存。

同时，如果你用的是靠谱的数据库，又不需要管流的话，用数据库应该也可以吧。

所以这取决于您的用例：