循环发现的 url 以获取它们的正确方法是什么?

What is the proper way to loop discovered urls back to fetch them?

我已从默认拓扑开始,但想进行递归爬网。所以我必须修改 flux 文件以将发现的 url 循环回 fetcher,我不确定哪种方法最好?

是否有关于如何执行此操作的良好示例?也许与 Elasticsearch 合作?

此致, 克里斯

您需要在运行 递归抓取时存储有关 URL 的信息。反馈给 Fetcher 是不够的,因为它不会考虑重复项或让您对调度有任何控制。

外部模块中有许多选项可用,Elasticsearch 就是其中之一,您还可以使用 SOLR 或 SQL 后端。

有关如何将 SC 与 ES 结合使用的教程,请参阅 our Youtube channel

有一个 StatusUpdater 的实现,它将发现的 URL 反馈给 MemorySpout,但这仅对在本地模式下进行测试/调试有用。