将 RabbitMQ 与 Stormcrawler 结合使用

Using RabbitMQ with Stormcrawler

我想将 RabbitMQ 与 StormCrawler 一起使用。我已经看到有一个将 RabbitMQ 与 Storm 结合使用的存储库: https://github.com/ppat/storm-rabbitmq

您将如何将其用于 StormCrawler?我想使用生产者和消费者。

对于消费者来说,似乎有一些文档。制片人呢?你能把配置条目放在风暴爬虫配置中吗?还是我需要更改 RabbitMQProducer 的源代码?

您希望将 URL 发送到 RabbitMQ 的螺栓扩展 AbstractStatusUpdaterBolt,因为超级 class 在引擎盖下做了很多有用的事情,这意味着您不会使用开箱即用的 Producer但需要编写一些自定义代码。

除非您确定不会有重复的 URL,否则您需要在将 URL 发送到队列之前删除重复的 URL,这可以通过例如在您的自定义状态更新程序中使用 Redis。